ChatPaper.aiChatPaper

Agente como Juez

Agent-as-a-Judge

January 8, 2026
Autores: Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu, Tiezheng Yu, Yongqi Li, Wenjie Li
cs.AI

Resumen

El modelo LLM-como-juez ha revolucionado la evaluación de IA al aprovechar los modelos de lenguaje extensos para realizar evaluaciones escalables. Sin embargo, a medida que los elementos a evaluar se vuelven cada vez más complejos, especializados y multifásicos, la fiabilidad del modelo LLM-como-juez se ha visto limitada por sesgos inherentes, razonamientos superficiales de única pasada y la incapacidad de verificar las evaluaciones frente a observaciones del mundo real. Esto ha catalizado la transición hacia el modelo Agente-como-juez, donde los jueces agentes emplean planificación, verificación aumentada con herramientas, colaboración multiagente y memoria persistente para permitir evaluaciones más sólidas, verificables y matizadas. A pesar de la rápida proliferación de sistemas de evaluación agenticos, el campo carece de un marco unificado para navegar este panorama cambiante. Para cerrar esta brecha, presentamos la primera revisión exhaustiva que traza esta evolución. Específicamente, identificamos dimensiones clave que caracterizan este cambio de paradigma y establecemos una taxonomía de desarrollo. Organizamos metodologías centrales y revisamos aplicaciones en dominios generales y profesionales. Además, analizamos desafíos de vanguardia e identificamos direcciones de investigación prometedoras, proporcionando finalmente una hoja de ruta clara para la próxima generación de evaluación agentica.
English
LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.
PDF60January 10, 2026