Desde o início de junho de 2022, o Achados e Pedidos usa Inteligência Artificial (IA) para qualificar o grau de atendimento aos quase 200 mil pedidos que estão em sua base de dados. Usando um programa que analisa a estrutura do texto das solicitações e das respostas, os pedidos são classificados automaticamente como “Atendido”, “Parcialmente atendido” ou “Não atendido”.
Vinícius Araújo, do Laboratório de Mineração de Dados da UFCG, desenvolveu o código especialmente para o Achados e Pedidos com o BERT, que analisa textos transformados em vetores (lista de valores numéricos) para classificá-los.
Antes de aplicar o programa no site, foi preciso treiná-lo, ou seja, fornecer uma amostra já classificada dos dados a serem analisados. O cientista de dados do Achados e Pedidos, Raul Durlo, organizou um recorte de 10 mil pedidos que a Transparência Brasil havia classificado manualmente em 2018 e outra porção de pedidos não classificados para o treinamento.
O modelo alcançou uma proporção alta de acurácia, ou seja, precisão na classificação dos pedidos: 84,6%. Essa porcentagem varia nas diferentes categorias: para os “Atendidos”, chegou a 82%; para os “Não atendidos”, 90%; para os “Parcialmente atendidos”, por sua vez, a acurácia ficou em 65%.
Caso encontre uma classificação que julgue estar incorreta (um pedido não atendido classificado como atendido, por exemplo), qualquer usuário
do Achados e Pedidos pode alertar a equipe. Basta clicar no botão “Solicitar revisão”, que aparece na lateral direita da página de cada pedido.
O uso de IA para classificar o atendimento a solicitações potencializa uma das funções do Achados e Pedidos: oferecer uma avaliação qualitativa independente da implementação da Lei de Acesso à Informação (LAI) no país. Com a classificação da base - impossível de ser feita manualmente, diante de seu tamanho -, é possível estimar mais concretamente quanto dos pedidos recebidos por cada Poder e órgão no país é atendido satisfatoriamente, e não apenas respondido. Essas estatísticas serão exibidas em breve na página Dados do site.
Em termos técnicos
O modelo usado para a classificação foi o de processamento de linguagem natural (NLP, na sigla em inglês) com embeddings. A transformação dos textos em vetores foi feita a partir de um modelo treinado em Português brasileiro, assim como o modelo de arquitetura BERT usado para a classificação. O código usado para a modelagem está disponível no GitHub.