ChatPaper.aiChatPaper

A2Eval: 구현된 두뇌를 위한 에이전트 기반 자동 평가

A2Eval: Agentic and Automated Evaluation for Embodied Brain

February 2, 2026
저자: Shuai Zhang, Jiayu Hu, Zijie Chen, Zeyuan Ding, Yi Zhang, Yingji Zhang, Ziyi Zhou, Junwei Liao, Shengjie Zhou, Yong Dai, Zhenzhong Lan, Xiaozhu Ju
cs.AI

초록

현재 구현된 VLM 평가는 심각한 중복성과 커버리지 불균형을 보이는 정적이고 전문가 정의 방식의 수동 주석 벤치마크에 의존하고 있습니다. 이러한 노동 집약적 패러다임은 컴퓨팅 및 주석 리소스를 고갈시키고 비용을 증가시키며 모델 순위 왜곡을 초래하여 궁극적으로 반복적 개발을 저해합니다. 이를 해결하기 위해 우리는 두 개의 협업 에이전트를 통해 벤치마크 구축과 평가를 자동화하는 최초의 에이전트 기반 프레임워크인 Agentic Automatic Evaluation(A2Eval)을 제안합니다. 데이터 에이전트는 능력 차원을 자율적으로 도출하고 균형 잡힌 컴팩트 평가 세트를 구성하는 반면, 평가 에이전트는 실행 가능한 평가 파이프라인을 종합 및 검증하여 완전 자율적이고 고충실도의 평가를 가능하게 합니다. 10개 벤치마크와 13개 모델에서 평가된 A2Eval은 평가 세트를 85% 압축하고 전체 컴퓨팅 비용을 77% 절감하며 평가 품질을 유지한 채 4.6배의 속도 향상을 제공합니다. 무엇보다 A2Eval은 체계적 순위 편향을 교정하고 Spearman's rho=0.85로 인간 정렬도를 향상시키며 높은 순위 충실도(Kendall's tau=0.81)를 유지하여 고충실도·저비용 구현 평가의 새로운 표준을 제시합니다. 우리의 코드와 데이터는 곧 공개될 예정입니다.
English
Current embodied VLM evaluation relies on static, expert-defined, manually annotated benchmarks that exhibit severe redundancy and coverage imbalance. This labor intensive paradigm drains computational and annotation resources, inflates costs, and distorts model rankings, ultimately stifling iterative development. To address this, we propose Agentic Automatic Evaluation (A2Eval), the first agentic framework that automates benchmark curation and evaluation through two collaborative agents. The Data Agent autonomously induces capability dimensions and assembles a balanced, compact evaluation suite, while the Eval Agent synthesizes and validates executable evaluation pipelines, enabling fully autonomous, high-fidelity assessment. Evaluated across 10 benchmarks and 13 models, A2Eval compresses evaluation suites by 85%, reduces overall computational costs by 77%, and delivers a 4.6x speedup while preserving evaluation quality. Crucially, A2Eval corrects systematic ranking biases, improves human alignment to Spearman's rho=0.85, and maintains high ranking fidelity (Kendall's tau=0.81), establishing a new standard for high-fidelity, low-cost embodied assessment. Our code and data will be public soon.
PDF71February 6, 2026