ChatPaper.aiChatPaper

에이전트-판사

Agent-as-a-Judge

January 8, 2026
저자: Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu, Tiezheng Yu, Yongqi Li, Wenjie Li
cs.AI

초록

LLM-as-a-Judge는 대규모 언어 모델을 활용한 확장 가능한 평가를 통해 AI 평가 분야에 혁명을 일으켰습니다. 그러나 평가 대상이 점점 더 복잡해지고, 전문적이며, 다단계로 진행됨에 따라 LLM-as-a-Judge의 신뢰도는 내재된 편향, 피상적인 단일 패스 추론, 그리고 실제 관찰 결과에 대한 평가 검증 불가능이라는 한계에 직면하게 되었습니다. 이는 Agent-as-a-Judge로의 전환을 촉발시켰는데, 여기서 에이전트 평가자는 계획 수립, 도구를 통한 검증, 다중 에이전트 협업, 지속적 메모리 등을 활용하여 보다 강력하고 검증 가능하며 세밀한 평가를 가능하게 합니다. 에이전트 평가 시스템이 빠르게 확산되고 있음에도 불구하고, 이 변화하는 지형을 탐색할 수 있는 통합된 프레임워크가 부족한 실정입니다. 이러한 격차를 해소하기 위해 우리는 이러한 진화를 추적하는 첫 번째 포괄적인 조사 연구를 제시합니다. 구체적으로, 우리는 이러한 패러다임 전환을 특징짓는 핵심 차원을 규명하고 발전 분류 체계를 수립합니다. 핵심 방법론을 체계화하고 일반 및 전문 분야에 걸친 응용 사례를 조사합니다. 더 나아가, 최첨단 과제를 분석하고 유망한 연구 방향을 제시함으로써 궁극적으로 차세대 에이전트 평가를 위한 명확한 로드맵을 제공합니다.
English
LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.
PDF60January 10, 2026