ClawArena : Évaluation comparative des agents d'IA dans des environnements informationnels en évolution

Résumé

Les agents d'IA déployés comme assistants permanents doivent maintenir des croyances correctes à mesure que leur environnement informationnel évolue. En pratique, les preuves sont dispersées dans des sources hétérogènes qui se contredisent souvent, les nouvelles informations peuvent invalider des conclusions antérieures, et les préférences des utilisateurs émergent via des corrections plutôt que des instructions explicites. Les benchmarks existants supposent largement des configurations statiques à autorité unique et n'évaluent pas si les agents peuvent suivre cette complexité. Nous présentons ClawArena, un benchmark pour évaluer les agents d'IA dans des environnements informationnels évolutifs. Chaque scénario maintient une vérité terrain complète mais cachée, tout en exposant l'agent uniquement à des traces bruitées, partielles et parfois contradictoires via des sessions multi-canaux, des fichiers de travail et des mises à jour planifiées. L'évaluation est organisée autour de trois défis couplés : le raisonnement sur les conflits multi-sources, la révision dynamique des croyances et la personnalisation implicite, dont les interactions produisent une taxonomie de questions à 14 catégories. Deux formats de questions, QCM (sélection d'ensemble) et vérifications exécutables via shell, testent à la fois le raisonnement et l'ancrage dans l'espace de travail. La version actuelle contient 64 scénarios couvrant 8 domaines professionnels, totalisant 1 879 tours d'évaluation et 365 mises à jour dynamiques. Les expériences sur cinq frameworks d'agents et cinq modèles de langage montrent que la capacité du modèle (écart de 15,4 %) et la conception du framework (écart de 9,2 %) affectent substantiellement les performances, que les frameworks d'auto-évolution des compétences peuvent partiellement combler les écarts de capacité des modèles, et que la difficulté de révision des croyances est déterminée par la stratégie de conception des mises à jour plutôt que par la simple présence de celles-ci. Le code est disponible à l'adresse https://github.com/aiming-lab/ClawArena.

English

AI agents deployed as persistent assistants must maintain correct beliefs as their information environment evolves. In practice, evidence is scattered across heterogeneous sources that often contradict one another, new information can invalidate earlier conclusions, and user preferences surface through corrections rather than explicit instructions. Existing benchmarks largely assume static, single-authority settings and do not evaluate whether agents can keep up with this complexity. We introduce ClawArena, a benchmark for evaluating AI agents in evolving information environments. Each scenario maintains a complete hidden ground truth while exposing the agent only to noisy, partial, and sometimes contradictory traces across multi-channel sessions, workspace files, and staged updates. Evaluation is organized around three coupled challenges: multi-source conflict reasoning, dynamic belief revision, and implicit personalization, whose interactions yield a 14-category question taxonomy. Two question formats, multi-choice (set-selection) and shell-based executable checks, test both reasoning and workspace grounding. The current release contains 64 scenarios across 8 professional domains, totaling 1{,}879 evaluation rounds and 365 dynamic updates. Experiments on five agent frameworks and five language models show that both model capability (15.4% range) and framework design (9.2%) substantially affect performance, that self-evolving skill frameworks can partially close model-capability gaps, and that belief revision difficulty is determined by update design strategy rather than the mere presence of updates. Code is available at https://github.com/aiming-lab/ClawArena.

ClawArena : Évaluation comparative des agents d'IA dans des environnements informationnels en évolution

ClawArena: Benchmarking AI Agents in Evolving Information Environments

Résumé

Support