Obtenir code source HTML d’une page web 1


Le code VBA qui suit vous permet d'obtenir le code source HTML complet d'une page web. Il s'agit d'un excellent outil pour l'extraction des données d'une page internet car vous obtenez, en quelques secondes, sous forme de chaîne de caractères ( String ) tout le contenu de la page spécifiée.

Vous pouvez ensuite travailler avec cette chaîne pour en récupérer exactement le contenu que vous souhaitez. C'est une méthode idéale pour celui qui veut extraire des données à partir de l'internet de manière massive ou régulière.

Comme on ne télécharge que le code source (=du simple texte; les images, les fichiers JavaScript etc. ne doivent pas être téléchargés), la fonction est extrêmement rapide et vous permets d'obtenir le contenu (= "scraper") de centaines de pages en quelques minutes, voir secondes.

Le code de la fonction VBA qui extrait le contenu d'une page web

La fonction utilise comme paramètre le lien URL de la page web. L'utilisation ou non de la barre oblique ("/") à la fin du lien ne modifie pas la fonctionnalité. Si la page web est inaccessible ou n'existe pas, le résultat de la fonction est l'erreur " #N/A " ( xlErrNA ).

Exemple pratique de l'extraction de code HTML

Pour illustrer l'utilisation de la fonction ExtraireSourceHTML(), on peut créer une petite procédure en VBA qui va extraire le code source HTML de la page d'accueil du site Wikipedia.org (http://fr.wikipedia.org). Comme résultat, un message (MsgBox) est affiché avec les premiers 350 caractères du code…

 

Automatiser l'extraction des codes HTML avec VBA

Si vous souhaitez de créer un "scraper" pour extraire le code HTML des pages internet de manière régulière (et en récupérer une information particulière), vous pouvez éventuellement créer un fichier "batch" pour automatiser toute votre procédure

Pour aller plus loin

 

21 0

Pourrait vous intéresser

Partagez cette page...
Share on FacebookShare on Google+Share on LinkedInTweet about this on TwitterShare on RedditShare on TumblrDigg thisEmail this to someone

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée.

Commentaire sur “Obtenir code source HTML d’une page web

  • Jucyla

    Bonjour,

    merci pour ce code vraiment utile, par contre pourriez vous me dire comment faire pour mettre coller le code source de la page web dans une feuille excel, donc dans a1, a2, a3 etc… plutot que dans un msgbox ?
    Je suis pas trés forte sous excel 🙂