ChatPaper.aiChatPaper

VitaBench: Valutazione di Agenti LLM attraverso Compiti Interattivi Versatili in Applicazioni del Mondo Reale

VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications

September 30, 2025
Autori: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao
cs.AI

Abstract

Man mano che gli agenti basati su LLM vengono sempre più impiegati in scenari reali, i benchmark esistenti non riescono a catturare la loro intrinseca complessità nel gestire informazioni estese, sfruttare risorse diversificate e gestire interazioni dinamiche con gli utenti. Per colmare questa lacuna, introduciamo VitaBench, un benchmark impegnativo che valuta gli agenti su compiti interattivi versatili radicati in contesti reali. Traendo spunto da applicazioni quotidiane come la consegna di cibo, il consumo in negozio e i servizi di viaggio online, VitaBench presenta agli agenti l'ambiente di simulazione più complesso mai realizzato per servizi legati alla vita quotidiana, comprendente 66 strumenti. Attraverso un framework che elimina politiche specifiche per dominio, consentiamo una composizione flessibile di questi scenari e strumenti, producendo 100 task cross-scenario (risultati principali) e 300 task single-scenario. Ogni task è derivato da molteplici richieste reali degli utenti e richiede agli agenti di ragionare attraverso dimensioni temporali e spaziali, utilizzare set di strumenti complessi, chiarire proattivamente istruzioni ambigue e monitorare l'intento mutevole dell'utente durante conversazioni multi-turn. Inoltre, proponiamo un valutatore basato su rubriche con finestra scorrevole, che consente una valutazione robusta di percorsi di soluzione diversi in ambienti complessi e interazioni stocastiche. La nostra valutazione completa rivela che anche i modelli più avanzati raggiungono solo un tasso di successo del 30% sui task cross-scenario e meno del 50% su altri. Nel complesso, crediamo che VitaBench servirà come una risorsa preziosa per far progredire lo sviluppo di agenti AI in applicazioni pratiche del mondo reale. Il codice, il dataset e la classifica sono disponibili su https://vitabench.github.io/
English
As LLM-based agents are increasingly deployed in real-life scenarios, existing benchmarks fail to capture their inherent complexity of handling extensive information, leveraging diverse resources, and managing dynamic user interactions. To address this gap, we introduce VitaBench, a challenging benchmark that evaluates agents on versatile interactive tasks grounded in real-world settings. Drawing from daily applications in food delivery, in-store consumption, and online travel services, VitaBench presents agents with the most complex life-serving simulation environment to date, comprising 66 tools. Through a framework that eliminates domain-specific policies, we enable flexible composition of these scenarios and tools, yielding 100 cross-scenario tasks (main results) and 300 single-scenario tasks. Each task is derived from multiple real user requests and requires agents to reason across temporal and spatial dimensions, utilize complex tool sets, proactively clarify ambiguous instructions, and track shifting user intent throughout multi-turn conversations. Moreover, we propose a rubric-based sliding window evaluator, enabling robust assessment of diverse solution pathways in complex environments and stochastic interactions. Our comprehensive evaluation reveals that even the most advanced models achieve only 30% success rate on cross-scenario tasks, and less than 50% success rate on others. Overall, we believe VitaBench will serve as a valuable resource for advancing the development of AI agents in practical real-world applications. The code, dataset, and leaderboard are available at https://vitabench.github.io/
PDF192October 1, 2025