Quando o \"estado da arte\" não é a melhor opção

Invalid Date

Recentemente, liderei um projeto que exemplifica perfeitamente por que inteligência artificial não se resume a "aplicar a tecnologia mais recente", mas exige resolver problemas reais com arquitetura inteligente e criativa.

O cliente recebia, diariamente, milhares de editais de licitação que precisavam ser classificados por tipo de serviço. O processo manual era tecnicamente complexo, lento e sujeito à fadiga cognitiva dos especialistas.

O objetivo era automatizar esse processo com IA, e 3 requisitos estavam claros:

baixo custo operacional;
alta aderência à expertise humana (precisão); e
determinismo (previsibilidade e explicabilidade das decisões).

A armadilha

A tentação imediata seria utilizar um modelo como GPT ou Gemini para fazer as classificações. Essa abordagem, aparentemente moderna e sofisticada, rapidamente se revelaria ingênua — uma flagrante engenharia excessiva e em conflito com todos os requisitos do cliente.

É fato que os LLMs são o estado da arte na compreensão de texto. Mas o outro lado da moeda, a etapa generativa, apresenta:

custo extremo;
pré-treinamento genérico e alheio à expertise humana; e, portanto,
comportamento imprevisível em domínios específicos.

Ou seja: alto custo, baixa aderência e pouca previsibilidade. Trágico!

O "pulo do gato"

Felizmente, todo o poder de compreensão de um LLM reside em seu engenhoso "Transformer", que mapeia o texto em um espaço vetorial semântico. Enquanto os detalhes técnicos podem ser consultados no artigo intitulado “Attention Is All You Need” (Vaswani et al., 2017), os provedores comerciais de LLM fornecem essa transformação com desempenho excepcional e custo reduzido por meio de suas API.

Assim, podemos desfrutar de uma compreensão semântica de altíssima qualidade, enquanto evitamos a caríssima etapa de geração, substituindo-a completamente por um modelo adequado ao problema.

Para a classificação, os experimentos da modelagem corroboraram o bom desempenho das Redes Neurais Artificiais, o que já era indicado pela experiência. Assim, essa arquitetura foi utilizada para desenvolver um modelo e treiná-lo sobre o conjunto de dados do cliente, composto por milhares de licitações previamente classificadas manualmente.

Resultados

Como esperávamos, essa arquitetura híbrida foi um sucesso, alcançando um classificador com a mesma capacidade interpretativa de um LLM comercial e com a mesma estratégia de classificação do especialista humano.

A escolha do classificador adequado permitiu uma redução brutal do número de parâmetros envolvidos na etapa de classificação (e, por conseguinte, de sua complexidade): em vez dos bilhões (e, por vezes, trilhões!) de parâmetros de um LLM comercial de propósito geral, utilizamos apenas algumas centenas de neurônios e uma arquitetura surpreendentemente mais simples.

Por fim, a arquitetura completa foi:

Compreensão (embedding de Transformer via API);
Classificação (RNA própria).

Dada a simplicidade do classificador e considerando a total viabilidade de sua execução na infraestrutura atual do cliente sem custos adicionais, podemos considerar que o custo operacional final é igual ao custo da etapa de compreensão (isto é, da API de embedding).

Considerando-se a aproximação 3 caracteres ≈ 1 token, o tamanho médio aproximado dos objetos licitatórios é de 70 tokens. Para 10 mil documentos, temos 700.000 tokens*.* Com um custo de US $0,15 por milhão de *tokens* e a cotação do dólar a R$ 5,38, temos que o custo final (estimado) para 10.000 documentos é de, aproximadamente, R$ 0,54!

Conclusões

Este projeto foi um case clássico de que, em Machine Learning, a melhor solução não é a maior ou mais nova tecnologia, mas aquela que resolve a dor do cliente de forma precisa, controlada e economicamente viável.

Às vezes, a verdadeira inovação está em saber o que NÃO usar.

Postado originalmente no LinkedIn.