A2Eval: Valutazione Agente e Automatizzata per il Cervello Incarnato
A2Eval: Agentic and Automated Evaluation for Embodied Brain
February 2, 2026
Autori: Shuai Zhang, Jiayu Hu, Zijie Chen, Zeyuan Ding, Yi Zhang, Yingji Zhang, Ziyi Zhou, Junwei Liao, Shengjie Zhou, Yong Dai, Zhenzhong Lan, Xiaozhu Ju
cs.AI
Abstract
La valutazione corrente dei VLM incarnati si basa su benchmark statici, definiti da esperti e annotati manualmente, che presentano una grave ridondanza e uno squilibrio nella copertura. Questo paradigma ad alta intensità di lavoro prosciuga le risorse computazionali e di annotazione, gonfia i costi e distorce le classifiche dei modelli, ostacolando infine lo sviluppo iterativo. Per affrontare questo problema, proponiamo Agentic Automatic Evaluation (A2Eval), il primo framework agentico che automatizza la selezione e la valutazione dei benchmark attraverso due agenti collaborativi. Il Data Agent induce autonomamente le dimensioni di capacità e assembla una suite di valutazione bilanciata e compatta, mentre l'Eval Agent sintetizza e convalida pipeline di valutazione eseguibili, consentendo una valutazione completamente autonoma e ad alta fedeltà. Valutato su 10 benchmark e 13 modelli, A2Eval comprime le suite di valutazione dell'85%, riduce i costi computazionali complessivi del 77% e garantisce un accelerazione di 4,6 volte mantenendo la qualità della valutazione. Fondamentalmente, A2Eval corregge le distorsioni sistematiche nelle classifiche, migliora l'allineamento umano fino a Spearman rho=0,85 e mantiene un'elevata fedeltà di ranking (Kendall tau=0,81), stabilendo un nuovo standard per la valutazione incarnata ad alta fedeltà e basso costo. Il nostro codice e i nostri dati saranno presto pubblici.
English
Current embodied VLM evaluation relies on static, expert-defined, manually annotated benchmarks that exhibit severe redundancy and coverage imbalance. This labor intensive paradigm drains computational and annotation resources, inflates costs, and distorts model rankings, ultimately stifling iterative development. To address this, we propose Agentic Automatic Evaluation (A2Eval), the first agentic framework that automates benchmark curation and evaluation through two collaborative agents. The Data Agent autonomously induces capability dimensions and assembles a balanced, compact evaluation suite, while the Eval Agent synthesizes and validates executable evaluation pipelines, enabling fully autonomous, high-fidelity assessment. Evaluated across 10 benchmarks and 13 models, A2Eval compresses evaluation suites by 85%, reduces overall computational costs by 77%, and delivers a 4.6x speedup while preserving evaluation quality. Crucially, A2Eval corrects systematic ranking biases, improves human alignment to Spearman's rho=0.85, and maintains high ranking fidelity (Kendall's tau=0.81), establishing a new standard for high-fidelity, low-cost embodied assessment. Our code and data will be public soon.