Conseil de prospection / cold call

5 min de lecture

Comment scraper un PDF interactif "non-copiable" pour trouver des dirigeants de franchise au Canada

Comment scraper un PDF impossible à copier pour construire un fichier de prospection B2B au Canada ? Voici la méthode exacte, outil par outil.

On avait un problème concret : un magazine PDF recensant des centaines de réseaux de franchise au Canada, avec noms, postes, numéros de téléphone directs et emails. Une mine d'or. Sauf qu'on ne pouvait ni copier-coller le texte, ni le scraper avec les outils habituels. Dans cet article, on vous explique exactement comment on a contourné ça, étape par étape, et pourquoi ce fichier nous a permis de générer 4 à 7 rendez-vous qualifiés par jour de prospection.

Pourquoi ce PDF était un cas à part

Le magazine Franchise Canada est publié sous forme de livre interactif embarqué sur une plateforme ISO. Ce n'est pas un PDF classique hébergé en ligne. Résultat : impossible de copier le texte, impossible de l'extraire avec un scraper classique, et impossible de l'ouvrir directement dans un outil de traitement de données.

Ce qui rendait le fichier précieux, c'est précisément son niveau de détail. Pour certaines entrées, on avait le nom complet du dirigeant, son titre (COO, CEO, etc.), son email et son numéro de téléphone direct. Ce type de donnée se trouve rarement dans les annuaires classiques ou sur LinkedIn.

Étape 1 : Identifier les bonnes sources avec ChatGPT

Avant même d'attaquer le PDF, on avait utilisé un GPTs dédié à la recherche de sources de données B2B. On lui a demandé où trouver des réseaux de franchise au Canada : annuaires, magazines spécialisés, salons professionnels, associations sectorielles.

Le magazine Franchise Canada est sorti de cette liste. On aurait pu demander directement à ChatGPT une liste de marques de franchise, mais cette approche est moins exhaustive et moins précise qu'un annuaire structuré.

Étape 2 : Capturer le contenu avec BrowserFlow

Puisqu'on ne pouvait pas copier le texte, on a utilisé BrowserFlow, une extension Chrome qui prend le contrôle du navigateur. Le principe : l'outil fait des captures d'écran automatiques de chaque page et clique sur le bouton "Suivant" sans intervention manuelle.

On s'est retrouvé avec des centaines de screenshots. Pas encore exploitables, mais c'est la base de tout ce qui suit.

Étape 3 : Améliorer la qualité des images et les convertir en PDF

Les captures d'écran brutes n'étaient pas assez nettes pour être traitées par un OCR. On les a donc passées dans un outil de rehaussement de qualité d'image, puis converties en PDF.

Ce détail compte. Un OCR travaille sur la clarté des caractères. Si l'image est floue ou pixelisée, le résultat est inexploitable. Prendre le temps d'améliorer la qualité avant l'extraction, ça change tout sur la précision des données récupérées.

Étape 4 : Extraire les données structurées avec NotebookLM

Une fois les PDF de qualité prêts, on les a importés dans NotebookLM, l'outil de Google qui permet d'interroger des documents comme des sources de connaissance. On lui a demandé de générer un tableau structuré avec : nom de l'entreprise, nom du contact, poste, email, numéro de téléphone.

L'outil a traité les PDF par batch (environ 30 à la fois). À chaque batch, on obtenait un tableau propre qu'on pouvait exporter et réutiliser.

Étape 5 : Consolider et enrichir dans Clay

Tous les tableaux extraits, plus les données issues des autres annuaires scrapés en parallèle, ont été réunis dans Clay. On a dédoublonné l'ensemble. Résultat : 1 800 réseaux de franchise uniques identifiés au Canada.

Depuis Clay, on a lancé plusieurs enrichissements automatisés :

  • Un agent IA pour trouver les sites web manquants via Google
  • Un agent pour récupérer les URL LinkedIn des entreprises
  • Une normalisation des noms d'entreprises (suppression des suffixes juridiques, filtrage sur le Canada)
  • Un enrichissement pour récupérer l'effectif et les identifiants uniques d'entreprise

Étape 6 : Trouver les bons contacts sur LinkedIn avec Waalaxy

Une fois les entreprises qualifiées, on a importé le fichier sur LinkedIn Sales Navigator pour extraire les bonnes personnes : directeurs généraux, COO, responsables développement. On a construit les bons booléens de recherche, puis extrait les profils avec Waalaxy.

Ces contacts ont ensuite été réintégrés dans le fichier principal, aux côtés des contacts déjà présents dans le PDF d'origine.

Étape 7 : Trouver numéros de téléphone et emails en cascade

Pour chaque contact, on a lancé une cascade de fournisseurs de données (une dizaine au total) pour trouver le maximum de numéros de téléphone et d'emails valides. On a aussi ajouté une couche de géolocalisation pour identifier si le contact est au Québec ou dans une autre province, ce qui change l'approche commerciale.

Les contacts issus directement du PDF ont été marqués d'une étoile dans le fichier : ce sont eux qu'on appelle en priorité, puisque les coordonnées ont été publiées volontairement par les entreprises elles-mêmes.

Ce qu'il faut retenir

  • Un PDF "impossible à scraper" se contourne avec BrowserFlow (screenshots automatisés) + rehausseur d'image + OCR via NotebookLM.
  • La qualité des images avant OCR détermine la qualité des données extraites. Ne sautez pas cette étape.
  • Croiser plusieurs sources (PDF, annuaires, LinkedIn) et dédoublonner dans Clay donne un fichier plus riche qu'une seule source isolée.
  • Marquer les contacts "source directe" (ici, les contacts du magazine) permet de prioriser les appels sur les numéros les plus fiables.
  • Sur ce type de fichier ciblé, Lead Panda génère entre 4 et 7 rendez-vous qualifiés par jour de prospection.

Vous voulez externaliser votre prospection téléphonique ?

Chez Lead Panda, on a accompagné plus de 95 clients B2B dans la génération de rendez-vous qualifiés — principalement via cold call. Si vous voulez arrêter de chercher des numéros et commencer à remplir votre agenda, contactez-nous.