LLM 기반 에이전트 평가에 관한 연구 조사Survey on Evaluation of LLM-based Agents
LLM 기반 에이전트의 등장은 AI 분야에서 패러다임 전환을 의미하며, 동적 환경과 상호작용하면서 계획 수립, 추론, 도구 사용, 메모리 유지 등이 가능한 자율 시스템을 가능하게 합니다. 본 논문은 이러한 점점 더 강력해지는 에이전트들을 평가하기 위한 방법론에 대한 첫 번째 포괄적인 조사를 제공합니다. 우리는 평가 벤치마크와 프레임워크를 네 가지 핵심 차원에서 체계적으로 분석합니다: (1) 계획, 도구 사용, 자기 반성, 메모리를 포함한 기본적인 에이전트 능력; (2) 웹, 소프트웨어 엔지니어링, 과학, 대화형 에이전트를 위한 응용 특화 벤치마크; (3) 일반 목적 에이전트를 위한 벤치마크; (4) 에이전트 평가를 위한 프레임워크. 우리의 분석은 지속적으로 업데이트되는 벤치마크를 통해 더 현실적이고 도전적인 평가로의 전환을 포함한 새로운 트렌드를 밝혀냅니다. 또한, 비용 효율성, 안전성, 견고성 평가와 세분화된 확장 가능한 평가 방법 개발 등 미래 연구가 해결해야 할 중요한 격차를 식별합니다. 이 조사는 빠르게 진화하는 에이전트 평가의 지형을 매핑하고, 해당 분야의 새로운 트렌드를 밝히며, 현재의 한계를 지적하고 미래 연구 방향을 제안합니다.