ClawArena: Avaliação Comparativa de Agentes de IA em Ambientes de Informação em Evolução

Resumo

Os agentes de IA implantados como assistentes persistentes devem manter crenças corretas à medida que o seu ambiente de informação evolui. Na prática, as evidências estão dispersas por fontes heterogéneas que frequentemente se contradizem, novas informações podem invalidar conclusões anteriores, e as preferências dos utilizadores surgem através de correções em vez de instruções explícitas. Os *benchmarks* existentes assumem maioritariamente contextos estáticos e de autoridade única e não avaliam se os agentes conseguem acompanhar esta complexidade. Apresentamos o ClawArena, um *benchmark* para avaliar agentes de IA em ambientes de informação em evolução. Cada cenário mantém uma verdade fundamental completa e oculta, expondo o agente apenas a vestígios ruidosos, parciais e por vezes contraditórios através de sessões multicanal, ficheiros de trabalho e atualizações encenadas. A avaliação está organizada em torno de três desafios acoplados: raciocínio sobre conflitos de múltiplas fontes, revisão dinâmica de crenças e personalização implícita, cujas interações originam uma taxonomia de questões de 14 categorias. Dois formatos de questões, escolha múltipla (seleção de conjunto) e verificações executáveis baseadas em *shell*, testam tanto o raciocínio como a ancoragem no espaço de trabalho. A versão atual contém 64 cenários abrangendo 8 domínios profissionais, totalizando 1.879 rondas de avaliação e 365 atualizações dinâmicas. Experiências com cinco *frameworks* de agentes e cinco modelos de linguagem mostram que tanto a capacidade do modelo (variação de 15,4%) como o desenho do *framework* (9,2%) afetam substancialmente o desempenho, que os *frameworks* de capacidades de auto-evolução podem parcialmente colmatar lacunas de capacidade do modelo, e que a dificuldade de revisão de crenças é determinada pela estratégia de desenho da atualização e não pela mera presença de atualizações. O código está disponível em https://github.com/aiming-lab/ClawArena.

English

AI agents deployed as persistent assistants must maintain correct beliefs as their information environment evolves. In practice, evidence is scattered across heterogeneous sources that often contradict one another, new information can invalidate earlier conclusions, and user preferences surface through corrections rather than explicit instructions. Existing benchmarks largely assume static, single-authority settings and do not evaluate whether agents can keep up with this complexity. We introduce ClawArena, a benchmark for evaluating AI agents in evolving information environments. Each scenario maintains a complete hidden ground truth while exposing the agent only to noisy, partial, and sometimes contradictory traces across multi-channel sessions, workspace files, and staged updates. Evaluation is organized around three coupled challenges: multi-source conflict reasoning, dynamic belief revision, and implicit personalization, whose interactions yield a 14-category question taxonomy. Two question formats, multi-choice (set-selection) and shell-based executable checks, test both reasoning and workspace grounding. The current release contains 64 scenarios across 8 professional domains, totaling 1{,}879 evaluation rounds and 365 dynamic updates. Experiments on five agent frameworks and five language models show that both model capability (15.4% range) and framework design (9.2%) substantially affect performance, that self-evolving skill frameworks can partially close model-capability gaps, and that belief revision difficulty is determined by update design strategy rather than the mere presence of updates. Code is available at https://github.com/aiming-lab/ClawArena.

ClawArena: Avaliação Comparativa de Agentes de IA em Ambientes de Informação em Evolução

ClawArena: Benchmarking AI Agents in Evolving Information Environments

Resumo

Support