O Portão de Avaliação: Sem Aprovação, Sem Progresso

Se você levar uma coisa deste livro, que seja esta: avaliações são a diferença entre um sistema agêntico que produz software confiável e um que produz lixo bonito em alta velocidade. Já vi equipes investirem pesado em design de agentes e orquestração enquanto tratam avaliação como detalhe. Nunca termina bem.

O princípio é simples: cada agente produz um artefato (um arquivo, não uma resposta conversacional), e esse artefato deve passar avaliação antes do workflow avançar. A avaliação examina o output real, não a explicação do agente sobre seu output. O artefato atendeu sua definição de pronto? Essa é a única pergunta que importa.

Duas Camadas de Avaliação

Avaliações seguem uma abordagem em camadas que espelha a arquitetura geral do sistema:

Validação determinística roda primeiro. São checks rápidos, repetitivos, com zero ambiguidade. Para artefato de requisito: contém os campos de metadados obrigatórios? Todas as seções obrigatórias estão preenchidas? Referências internas apontam para artefatos que realmente existem no repositório? Para código: compila? Linter passa? Testes executam e passam? Cobertura atende o mínimo do projeto? A estrutura de imports respeita os limites arquiteturais?

Um agente avaliador roda segundo. É um agente de IA separado e dedicado cujo único propósito é avaliação de qualidade. Faz os julgamentos que checks baseados em regras não conseguem. Para requisitos: os critérios de aceite são genuinamente testáveis, ou são vagos o suficiente para ter múltiplas interpretações? Para arquitetura: a abordagem proposta alinha com padrões estabelecidos do projeto? Para código: a implementação realmente cumpre a especificação da tarefa? Existem exposições de segurança que análise estática não pegaria?

Se qualquer camada reprova o artefato, o agente produtor revisa e resubmete. A maioria das implementações permite três a cinco ciclos de revisão antes de escalar para um humano. Esse limite previne loops infinitos enquanto dá aos agentes espaço para autocorrigir baseado em feedback específico.

Plataformas de produção estão começando a formalizar esses padrões de avaliação como serviços gerenciados. O Agent Builder do Google, por exemplo, inclui um Example Store (repositório centralizado de exemplos few-shot que direcionam comportamento do agente em tipos específicos de tarefa sem retreinar o modelo) e um Evaluation Service (sistema de feedback loop que permite revisão escalada de outputs contra métricas de qualidade). Esses não são conceitos revolucionários individualmente, mas sua aparição como primitivos de plataforma sinaliza que a indústria reconhece infraestrutura de avaliação como essencial, não opcional. O padrão que descrevi acima (validação determinística primeiro, depois avaliação de qualidade por IA) mapeia diretamente para o que esses serviços gerenciados fornecem.

Mudando Como Humanos Investem Seu Tempo

O efeito prático dos eval gates é transformador para como engenheiros sênior investem sua capacidade de revisão. Sem avaliação automatizada, revisores humanos gastam a maior parte da energia em catches de baixo valor: metadata faltando, nomenclatura inconsistente, gaps de cobertura de testes, formatação. Com eval gates lidando com isso mecanicamente, a revisão humana foca exclusivamente em perguntas de alto impacto: o raciocínio arquitetural é sólido? As escolhas de lógica de negócio fazem sentido? Os tradeoffs certos foram feitos?

Num cliente de operações de mineração, vimos o tempo de revisão de código por feature cair cerca de 60 por cento após implementar eval gates, enquanto a qualidade do feedback que revisores humanos forneciam realmente melhorou. Estavam pegando questões reais de design em vez de gastar seu orçamento de atenção em formatação e compliance estrutural.

Este artigo é de O SDLC Agêntico por Carlos Aggio.