Criando um Web Crawler para pegar as informações diretamente no site do Cartola FC

Neste post vou ensinar como criar um web crawler para pegar as informações no site do Cartola FC e assim criar suas próprias estatísticas, índices, etc... Mas afinal, o que é um web crawler? Segundo a Wikipedia,  "é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada.". No caso do Cartola FC, queremos acessar o site e pegar todas as informações referentes a tabela de busca, de todos os jogadores.

Então a ideia básica é acessar o site do Cartola FC, pegar o código fonte e tratá-lo de alguma maneira de forma a restar apenas as informações que são de seu interesse.

A imagem abaixo exibe como exemplo o jogador Fred (com a tabela que é apresentada ao usuário) e um respectivo pedaço do código fonte.


Porém analisar o código fonte desta forma é trabalhoso e não muito funcional, pois temos de tratar a situação da mudança de página por exemplo.

Então uma forma alternativa de estudar a tabela é vendo quais conexões são usadas ao alterar algum parâmetro da criação da tabela e ver se existe uma forma mais direta de acessar os dados (no caso do Google Chrome basta ir em 'inspecionar elemento'). Ao vermos as conexões que são usadas ao acessar a página 2 de busca, eis que a mágica surge.


Sendo assim, conseguimos acessar os dados de busca diretamente pela URL fornecida (http://cartolafc.globo.com/mercado/filtrar.json?page=1&order_by=preco). Agora que você possui esta URL basta copiar e colar diretamente no endereço do seu browser que você terá acesso a todos os dados em um formato JSON. Basta operar um loop mudando o '...page=1...' para 2,3,...,43 e assim você terá pego todos os dados.

No próximo post vou por o código para fazer isso utilizando a linguagem R.

Para quem quiser os dados em formato .csv, aqui está:

https://dl.dropboxusercontent.com/u/46482875/rodada1-brasileirao.csv



Ressureição do Monocíclioco com um novo objetivo

Depois de exatos 1167 dias, eis que surge um nova postagem no Monocíclico. Na verdade se quer deveria ser aqui essa postagem, e sim em um blog novo. Porém graças a minha incrível preguiça e falta de criatividade vou continuar por aqui.

A questão é que participarei de uma liga no Cartola FC e meu objetivo é utilizar as estatísticas fornecidas e montar alguma estratégia numérica coerente. O que vou fazer ainda não sei. Mas gostaria de narrar no blog passo a passo do que será feito. Espero conseguir atualizar periodicamente, mas duvido muito que consiga fazer isso por mais de 10 rodadas.

Então é isso. Vida longa ao novo-antigo blog.  :)

« Previous Page   Next Page »