Semalt Expert biedt een gids voor het scrapen van het web met Javascript

Webschrapen kan een uitstekende bron zijn van kritieke gegevens die in elk bedrijf in het besluitvormingsproces worden gebruikt. Daarom vormt het de kern van data-analyse omdat het de enige zekere manier is om betrouwbare data te verzamelen. Maar omdat de hoeveelheid online-inhoud die kan worden gesloopt, altijd toeneemt, wordt het bijna onmogelijk om elke pagina handmatig te schrappen. Dit vraagt om automatisering.

Hoewel er veel tools zijn die zijn afgestemd op verschillende geautomatiseerde schraapprojecten, zijn de meeste premium en kost je een fortuin. Dit is waar Puppeteer + Chrome + Node.JS binnenkomen. Deze tutorial leidt je door het proces en zorgt ervoor dat je websites gemakkelijk automatisch kunt scrapen.

Hoe werkt de setup?

Het is belangrijk op te merken dat een beetje kennis van JavaScript handig zal zijn in dit project. Om te beginnen moet je de bovenstaande 3 programma's afzonderlijk aanschaffen. Puppeteer is een knooppuntbibliotheek die kan worden gebruikt om Chrome zonder hoofd te bedienen. Headless Chrome verwijst naar het proces van het uitvoeren van chroom zonder de GUI, of met andere woorden zonder het uitvoeren van chroom. Je moet Node 8+ installeren vanaf de officiële website.

Nadat de programma's zijn geïnstalleerd, is het tijd om een nieuw project te maken om te beginnen met het ontwerpen van de code. Idealiter is het JavaScript-scraping omdat u de code zult gebruiken om het scrapingsproces te automatiseren. Raadpleeg de documentatie voor meer informatie over Puppeteer, er zijn honderden voorbeelden waarmee je kunt spelen.

Hoe JavaScript-scraping te automatiseren

Ga bij het maken van een nieuw project verder met het maken van een bestand (.js). In de eerste regel moet u de Puppeteer-afhankelijkheid oproepen die u eerder had geïnstalleerd. Dit wordt dan gevolgd door een primaire functie "getPic ()" die alle automatiseringscode zal bevatten. De derde regel roept de functie "getPic ()" op om deze uit te voeren. Gezien het feit dat de functie getPic () een "async" -functie is, kunnen we dan de await-expressie gebruiken die de functie pauzeert terwijl we wachten tot de "belofte" is opgelost voordat we verder gaan met de volgende coderegel. Dit zal fungeren als de primaire automatiseringsfunctie.

Hoe headless chrome op te roepen

De volgende regel code: "const browser = await puppeteer.Launch ();" zal automatisch poppenspeler starten en een Chrome-instantie uitvoeren die deze instelt op onze nieuw gemaakte "browser" -variabele. Ga verder met het maken van een pagina die vervolgens wordt gebruikt om naar de URL te navigeren die u wilt verwijderen.

Gegevens schrappen

Met Puppeteer API kun je spelen met verschillende website-ingangen, zoals klokken, invullen van formulieren en het lezen van gegevens. U kunt ernaar verwijzen om van dichtbij te zien hoe u die processen kunt automatiseren. De "scrape ()" functie zal gebruikt worden om onze scraping code in te voeren. Ga verder met het uitvoeren van de knooppunt scrape.js-functie om het schraapproces te starten. De hele setup zou dan automatisch moeten beginnen met het uitvoeren van de vereiste inhoud. Het is belangrijk om te onthouden dat u uw code doorneemt en controleert of alles werkt volgens het ontwerp om te voorkomen dat u onderweg fouten tegenkomt.

mass gmail