Web Scraping de páginas dinâmicas com Python

18 de agosto, 2019

2 min.

Web scraping pode ficar bem complicado quando a página é dinâmica, você não mais precisa somente carregar o código-fonte da página mas também precisa esperar o JavaScript da página construir a página, que é o caso do site do Reclame Aqui. Nesses casos, precisamos controlar um navegador remotamente por meio de um web driver, por exemplo, o geckodriver para o Firefox ou chromedriver para o Chrome. Para isso, usamos uma biblioteca a partir da qual podemos instruir este navegador a fazer o que queremos, por exemplo o Selenium. Pros meus propósitos, usarei o Selenium para abrir uma URL e extrair alguma informação na página, tarefa para alguma biblioteca que entenda estrutura HTML e facilite a extração dos elementos, como a BeautifulSoup. Utilizo essas duas bibliotecas no script abaixo. E podemos instalá-las com: Bash astro-island,astro-slot,astro-static-slot{display:contents}(()=>{var e=async t=>{await(await t())()};(self.Astro||(self.Astro={})).load=e;window.dispatchEvent(new Event("astro:load"));})();;(()=>{var A=Object.defineProperty;var g=(i,o,a)=>o in i?A(i,o,{enumerable:!0,configurable:!0,writable:!0,value:a}):i[o]=a;var d=(i,o,a)=>g(i,typeof o!="symbol"?o+"":o,a);{let i={0:t=>m(t),1:t=>a(t),2:t=>new RegExp(t),3:t=>new Date(t),4:t=>new Map(a(t)),5:t=>new Set(a(t)),6:t=>BigInt(t),7:t=>new URL(t),8:t=>new Uint8Array(t),9:t=>new Uint16Array(t),10:t=>new Uint32Array(t),11:t=>1/0*t},o=t=>{let[l,e]=t;return l in i?i[l](e):void 0},a=t=>t.map(o),m=t=>typeof t!="object"||t===null?t:Object.fromEntries(Object.entries(t).map(([l,e])=>[l,o(e)]));class y extends HTMLElement{constructor(){super(...arguments);d(this,"Component");d(this,"hydrator");d(this,"hydrate",async()=>{var b;if(!this.hydrator||!this.isConnected)return;let e=(b=this.parentElement)==null?void 0:b.closest("astro-island[ssr]");if(e){e.addEventListener("astro:hydrate",this.hydrate,{once:!0});return}let c=this.querySelectorAll("astro-slot"),n={},h=this.querySelectorAll("template[data-astro-template]");for(let r of h){let s=r.closest(this.tagName);s!=null&&s.isSameNode(this)&&(n[r.getAttribute("data-astro-template")||"default"]=r.innerHTML,r.remove())}for(let r of c){let s=r.closest(this.tagName);s!=null&&s.isSameNode(this)&&(n[r.getAttribute("name")||"default"]=r.innerHTML)}let p;try{p=this.hasAttribute("props")?m(JSON.parse(this.getAttribute("props"))):{}}catch(r){let s=this.getAttribute("component-url")||"<unknown>",v=this.getAttribute("component-export");throw v&&(s+=` (export ${v})`),console.error(`[hydrate] Error parsing props for component ${s}`,this.getAttribute("props"),r),r}let u;await this.hydrator(this)(this.Component,p,n,{client:this.getAttribute("client")}),this.removeAttribute("ssr"),this.dispatchEvent(new CustomEvent("astro:hydrate"))});d(this,"unmount",()=>{this.isConnected||this.dispatchEvent(new CustomEvent("astro:unmount"))})}disconnectedCallback(){document.removeEventListener("astro:after-swap",this.unmount),document.addEventListener("astro:after-swap",this.unmount,{once:!0})}connectedCallback(){if(!this.hasAttribute("await-children")||document.readyState==="interactive"||document.readyState==="complete")this.childrenConnectedCallback();else{let e=()=>{document.removeEventListener("DOMContentLoaded",e),c.disconnect(),this.childrenConnectedCallback()},c=new MutationObserver(()=>{var n;((n=this.lastChild)==null?void 0:n.nodeType)===Node.COMMENT_NODE&&this.lastChild.nodeValue==="astro:end"&&(this.lastChild.remove(),e())});c.observe(this,{childList:!0}),document.addEventListener("DOMContentLoaded",e)}}async childrenConnectedCallback(){let e=this.getAttribute("before-hydration-url");e&&await import(e),this.start()}async start(){let e=JSON.parse(this.getAttribute("opts")),c=this.getAttribute("client");if(Astro[c]===void 0){window.addEventListener(`astro:${c}`,()=>this.start(),{once:!0});return}try{await Astro[c](async()=>{let n=this.getAttribute("renderer-url"),[h,{default:p}]=await Promise.all([import(this.getAttribute("component-url")),n?import(n):()=>()=>{}]),u=this.getAttribute("component-export")||"default";if(!u.includes("."))this.Component=h[u];else{this.Component=h;for(let f of u.split("."))this.Component=this.Component[f]}return this.hydrator=p,this.hydrate},e,this)}catch(n){console.error(`[astro-island] Error hydrating ${this.getAttribute("component-url")}`,n)}}attributeChangedCallback(){this.hydrate()}}d(y,"observedAttributes",["props"]),customElements.get("astro-island")||customElements.define("astro-island",y)}})(); $ pip3 instal selenium bs4 Para fazer o crawleamento, criei uma classe que aceita o nome de uma empresa e o web driver a ser utilizado. Ela tem o método ReclameAqui.extrair_informacoes(n_paginas) que vai extrair os links e títulos das reclamações das primeiras n_paginas. Outro método, o ReclameAqui.extrair_descricoes(), abre cada uma dessas URLs e extrai as descrições das informações. Para extrair a informação desejada, nós fazemos o BeautifulSoup “entender” o código-fonte primeiro para depois usarmos os métodos para extração de algum element do HTML. Por exemplo, para extrair o título e os links das reclamações em cada página, procuramos por parágrafos que contenham a classe text-detail: (<p class='text-detail'></p>), e depois procuramos elementos a, que contém o título dentro dele e o link dentro do atributo href. Já para a descrição, procuramos por um elemento div com a classe complain-body, e extraímos o texto dentro dele. Python from time import sleepfrom selenium import webdriverfrom bs4 import BeautifulSoup as bs class ReclameAqui: base_url = "https://www.reclameaqui.com.br/empresa/" def __init__(self, driver, empresa): self.driver = driver self.empresa = empresa def extrair_informacoes(self, n_paginas): url = self.base_url + self.empresa + "/lista-reclamacoes/?pagina=" self.reclamacoes, self.titulos, self.links = [], [], [] for i in range(1, n_paginas + 1): self.driver.get(url + str(i)) sleep(3) html = bs(self.driver.page_source, "html.parser") reclamacoes_html = html.find_all("p", {"class": "text-detail"}) reclamacoes_na_pagina = [ reclamacao.text.split("|") for reclamacao in reclamacoes_html ] self.reclamacoes.extend(reclamacoes_na_pagina) titulos_e_links = html.find_all( "a", {"class": "link-complain-id-complains"} ) self.titulos.extend([titulo.text.strip() for titulo in titulos_e_links]) self.links.extend([link.get("href") for link in titulos_e_links]) def extrair_descricoes(self): urls = [self.base_url + link[1:] for link in self.links] self.descricoes = [] for url in urls: self.driver.get(url) sleep(3) html = bs(self.driver.page_source, "html.parser") descricao = html.find("div", {"class": "complain-body"}).text.strip() self.descricoes.append(descricao) Esse código deve funcionar para qualquer empresa contanto que a estrutura do HTML do ReclameAqui não mude (isto é, o nome das classes e o tipo dos elementos onde as informações se encontram).

Web Scraping de páginas dinâmicas com Python - Phelipe Teles