Agente-como-Juiz

Resumo

O LLM-como-Juiz revolucionou a avaliação de IA ao aproveitar modelos de linguagem grandes para avaliações escaláveis. No entanto, à medida que os objetos de avaliação se tornam cada mais complexos, especializados e multi-etapas, a confiabilidade do LLM-como-Juiz tornou-se limitada por vieses inerentes, raciocínio superficial de passagem única e a incapacidade de verificar as avaliações face a observações do mundo real. Isso catalisou a transição para o Agente-como-Juiz, onde juízes agentivos empregam planeamento, verificação aumentada por ferramentas, colaboração multiagente e memória persistente para permitir avaliações mais robustas, verificáveis e nuanceadas. Apesar da rápida proliferação de sistemas de avaliação agentivos, a área carece de uma estrutura unificada para navegar neste panorama em mudança. Para preencher esta lacuna, apresentamos o primeiro levantamento abrangente que traça esta evolução. Especificamente, identificamos dimensões-chave que caracterizam esta mudança de paradigma e estabelecemos uma taxonomia de desenvolvimento. Organizamos as metodologias centrais e examinamos aplicações em domínios gerais e profissionais. Além disso, analisamos os desafios de fronteira e identificamos direções de pesquisa promissoras, fornecendo, em última análise, um roteiro claro para a próxima geração de avaliação agentiva.

English

LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.