ClawArena: Benchmarking degli Agenti IA in Ambienti Informativi in Evoluzione

Abstract

Gli agenti di IA impiegati come assistenti persistenti devono mantenere credenze corrette man mano che il loro ambiente informativo evolve. Nella pratica, le evidenze sono sparse tra fonti eterogenee che spesso si contraddicono, nuove informazioni possono invalidare conclusioni precedenti e le preferenze degli utenti emergono attraverso correzioni piuttosto che istruzioni esplicite. I benchmark esistenti assumono per lo più contesti statici e a singola autorità e non valutano se gli agenti siano in grado di tenere il passo con questa complessità. Introduciamo ClawArena, un benchmark per valutare gli agenti di IA in ambienti informativi in evoluzione. Ogni scenario mantiene una verità di base completa ma nascosta, esponendo l'agente solo a tracce rumorose, parziali e a volte contraddittorie attraverso sessioni multi-canale, file di lavoro e aggiornamenti pianificati. La valutazione è organizzata attorno a tre sfide accoppiate: ragionamento su conflitti multi-sorgente, revisione dinamica delle credenze e personalizzazione implicita, le cui interazioni generano una tassonomia di domande a 14 categorie. Due formati di domanda, a scelta multipla (selezione di insiemi) e controlli eseguibili basati su shell, testano sia il ragionamento che l'ancoraggio al workspace. L'attuale release contiene 64 scenari in 8 domini professionali, per un totale di 1.879 round di valutazione e 365 aggiornamenti dinamici. Esperimenti su cinque framework di agenti e cinque modelli linguistici mostrano che sia le capacità del modello (intervallo del 15,4%) che il design del framework (9,2%) influiscono sostanzialmente sulle prestazioni, che i framework di abilità auto-evolutivi possono parzialmente colmare i divari di capacità dei modelli e che la difficoltà di revisione delle credenze è determinata dalla strategia di progettazione degli aggiornamenti piuttosto che dalla mera presenza di aggiornamenti. Il codice è disponibile all'indirizzo https://github.com/aiming-lab/ClawArena.

English

AI agents deployed as persistent assistants must maintain correct beliefs as their information environment evolves. In practice, evidence is scattered across heterogeneous sources that often contradict one another, new information can invalidate earlier conclusions, and user preferences surface through corrections rather than explicit instructions. Existing benchmarks largely assume static, single-authority settings and do not evaluate whether agents can keep up with this complexity. We introduce ClawArena, a benchmark for evaluating AI agents in evolving information environments. Each scenario maintains a complete hidden ground truth while exposing the agent only to noisy, partial, and sometimes contradictory traces across multi-channel sessions, workspace files, and staged updates. Evaluation is organized around three coupled challenges: multi-source conflict reasoning, dynamic belief revision, and implicit personalization, whose interactions yield a 14-category question taxonomy. Two question formats, multi-choice (set-selection) and shell-based executable checks, test both reasoning and workspace grounding. The current release contains 64 scenarios across 8 professional domains, totaling 1{,}879 evaluation rounds and 365 dynamic updates. Experiments on five agent frameworks and five language models show that both model capability (15.4% range) and framework design (9.2%) substantially affect performance, that self-evolving skill frameworks can partially close model-capability gaps, and that belief revision difficulty is determined by update design strategy rather than the mere presence of updates. Code is available at https://github.com/aiming-lab/ClawArena.

ClawArena: Benchmarking degli Agenti IA in Ambienti Informativi in Evoluzione

ClawArena: Benchmarking AI Agents in Evolving Information Environments

Abstract

Support