Todo ato público, para que seja válido no Brasil, deve ser publicado em um diário oficial. Desde o governo federal, tribunais e até as câmaras de vereadores, todos divulgam atos oficiais em arquivos que devem ser acessíveis pela população. No entanto, esses documentos são geralmente publicados em PDFs obscuros de acesso complicado. Para resolver esse problema, a Open Knowledge Brasil lançou o Querido Diário (QD): um projeto de código aberto que usa tecnologia para libertar e centralizar as informações publicadas nos diários oficiais dos municípios.
Neste workshop, você aprenderá mais sobre a arquitetura do projeto, sua caixa de ferramentas (Toolbox do QD), como converter um arquivo de formato fechado para formato aberto, como encontrar e analisar CNPJs em um texto e, por fim, cruzar os CNPJs encontrados nos diários oficiais com dados da Receita Federal e realizar uma análise exploratória.
A caixa de ferramentas oferece à comunidade do projeto o ferramental para executar suas próprias análises e manipulações com os dados que são obtidos pelo QD. Durante a atividade, o programador Giulio Carvalho percorreu o passo a passo das ações com um exemplo prático. Todo o código foi executado na linguagem de programação Python.
Primeiro, Carvalho escolheu um arquivo de diário oficial, originalmente publicado em PDF e fez a conversão para um formato aberto. Em seguida, conduziu uma busca pelos CNPJs citados no texto. Depois, fez uma análise com os CNPJs encontrados nos diários de todo o ano de 2020 em cinco municípios.
Para cruzar os dados da Receita Federal e fazer a análise exploratória, o palestrante utilizou a API do projeto Minha Receita, que fornece uma API web para a consulta de dados de um CNPJ. partir da API, é possível obter informações como a razão social, a situação cadastral, porte e a CNAE (Classificação Nacional de Atividades Econômicas) fiscal das empresas.