ChatPaper.aiChatPaper

LLM 기반 에이전트 평가에 관한 연구 조사

Survey on Evaluation of LLM-based Agents

March 20, 2025
저자: Asaf Yehudai, Lilach Eden, Alan Li, Guy Uziel, Yilun Zhao, Roy Bar-Haim, Arman Cohan, Michal Shmueli-Scheuer
cs.AI

초록

LLM 기반 에이전트의 등장은 AI 분야에서 패러다임 전환을 의미하며, 동적 환경과 상호작용하면서 계획 수립, 추론, 도구 사용, 메모리 유지 등이 가능한 자율 시스템을 가능하게 합니다. 본 논문은 이러한 점점 더 강력해지는 에이전트들을 평가하기 위한 방법론에 대한 첫 번째 포괄적인 조사를 제공합니다. 우리는 평가 벤치마크와 프레임워크를 네 가지 핵심 차원에서 체계적으로 분석합니다: (1) 계획, 도구 사용, 자기 반성, 메모리를 포함한 기본적인 에이전트 능력; (2) 웹, 소프트웨어 엔지니어링, 과학, 대화형 에이전트를 위한 응용 특화 벤치마크; (3) 일반 목적 에이전트를 위한 벤치마크; (4) 에이전트 평가를 위한 프레임워크. 우리의 분석은 지속적으로 업데이트되는 벤치마크를 통해 더 현실적이고 도전적인 평가로의 전환을 포함한 새로운 트렌드를 밝혀냅니다. 또한, 비용 효율성, 안전성, 견고성 평가와 세분화된 확장 가능한 평가 방법 개발 등 미래 연구가 해결해야 할 중요한 격차를 식별합니다. 이 조사는 빠르게 진화하는 에이전트 평가의 지형을 매핑하고, 해당 분야의 새로운 트렌드를 밝히며, 현재의 한계를 지적하고 미래 연구 방향을 제안합니다.
English
The emergence of LLM-based agents represents a paradigm shift in AI, enabling autonomous systems to plan, reason, use tools, and maintain memory while interacting with dynamic environments. This paper provides the first comprehensive survey of evaluation methodologies for these increasingly capable agents. We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents. Our analysis reveals emerging trends, including a shift toward more realistic, challenging evaluations with continuously updated benchmarks. We also identify critical gaps that future research must address-particularly in assessing cost-efficiency, safety, and robustness, and in developing fine-grained, and scalable evaluation methods. This survey maps the rapidly evolving landscape of agent evaluation, reveals the emerging trends in the field, identifies current limitations, and proposes directions for future research.

Summary

AI-Generated Summary

PDF892March 21, 2025