ClawArena: Benchmarking von KI-Agenten in sich wandelnden Informationsumgebungen

Zusammenfassung

KI-Agenten, die als persistente Assistenten eingesetzt werden, müssen korrekte Überzeugungen aufrechterhalten, während sich ihr Informationsumfeld verändert. In der Praxis sind Belege über heterogene Quellen verstreut, die sich oft widersprechen, neue Informationen können frühere Schlussfolgerungen entkräften, und Nutzerpräferenzen zeigen sich eher durch Korrekturen als durch explizite Anweisungen. Bestehende Benchmarks gehen größtenteils von statischen Umgebungen mit einer einzigen Autorität aus und evaluieren nicht, ob Agenten mit dieser Komplexität Schritt halten können. Wir stellen ClawArena vor, einen Benchmark zur Bewertung von KI-Agenten in sich entwickelnden Informationsumgebungen. Jedes Szenario verwaltet eine vollständige, verborgene Grundwahrheit, während der Agent nur auf verrausste, unvollständige und manchmal widersprüchliche Spuren in mehrkanaligen Sitzungen, Arbeitsbereichsdateien und inszenierten Updates zugreift. Die Evaluation ist um drei gekoppelte Herausforderungen organisiert: Multi-Quellen-Konfliktbewältigung, dynamische Überzeugungsrevision und implizite Personalisierung, deren Zusammenspiel zu einer 14-Kategorien-Fragen-Taxonomie führt. Zwei Frageformate – Multiple-Choice (Mengenauswahl) und shell-basierte ausführbare Checks – testen sowohl das logische Denken als auch die Verankerung im Arbeitsbereich. Die aktuelle Version umfasst 64 Szenarien aus 8 Berufsdomänen mit insgesamt 1.879 Evaluierungsrunden und 365 dynamischen Aktualisierungen. Experimente mit fünf Agenten-Frameworks und fünf Sprachmodellen zeigen, dass sowohl die Modellfähigkeit (Spannweite von 15,4 %) als auch das Framework-Design (9,2 %) die Leistung erheblich beeinflussen, dass sich selbst-optimierende Skill-Frameworks Modellfähigkeitslücken teilweise schließen können und dass die Schwierigkeit der Überzeugungsrevision von der Update-Designstrategie und nicht allein von der Existenz von Updates bestimmt wird. Der Code ist verfügbar unter https://github.com/aiming-lab/ClawArena.

English

AI agents deployed as persistent assistants must maintain correct beliefs as their information environment evolves. In practice, evidence is scattered across heterogeneous sources that often contradict one another, new information can invalidate earlier conclusions, and user preferences surface through corrections rather than explicit instructions. Existing benchmarks largely assume static, single-authority settings and do not evaluate whether agents can keep up with this complexity. We introduce ClawArena, a benchmark for evaluating AI agents in evolving information environments. Each scenario maintains a complete hidden ground truth while exposing the agent only to noisy, partial, and sometimes contradictory traces across multi-channel sessions, workspace files, and staged updates. Evaluation is organized around three coupled challenges: multi-source conflict reasoning, dynamic belief revision, and implicit personalization, whose interactions yield a 14-category question taxonomy. Two question formats, multi-choice (set-selection) and shell-based executable checks, test both reasoning and workspace grounding. The current release contains 64 scenarios across 8 professional domains, totaling 1{,}879 evaluation rounds and 365 dynamic updates. Experiments on five agent frameworks and five language models show that both model capability (15.4% range) and framework design (9.2%) substantially affect performance, that self-evolving skill frameworks can partially close model-capability gaps, and that belief revision difficulty is determined by update design strategy rather than the mere presence of updates. Code is available at https://github.com/aiming-lab/ClawArena.

ClawArena: Benchmarking von KI-Agenten in sich wandelnden Informationsumgebungen

ClawArena: Benchmarking AI Agents in Evolving Information Environments

Zusammenfassung

Support