ClawArena: Бенчмаркинг ИИ-агентов в условиях эволюционирующих информационных сред

Аннотация

Искусственные интеллектуальные агенты, развернутые в качестве постоянных ассистентов, должны поддерживать корректные убеждения по мере изменения их информационной среды. На практике данные распределены по гетерогенным источникам, которые часто противоречат друг другу, новая информация может опровергать ранее сделанные выводы, а предпочтения пользователей проявляются через корректировки, а не явные инструкции. Существующие бенчмарки в основном предполагают статичные условия с единым источником истины и не оценивают способность агентов справляться с этой сложностью. Мы представляем ClawArena — бенчмарк для оценки ИИ-агентов в развивающихся информационных средах. Каждый сценарий поддерживает полную скрытую эталонную истину, предоставляя агенту доступ лишь к зашумленным, частичным и иногда противоречивым следам деятельности в рамках многоканальных сессий, файлов рабочего пространства и поэтапных обновлений. Оценка организована вокруг трех взаимосвязанных задач: рассуждений при конфликте множественных источников, динамического пересмотра убеждений и неявной персонализации, взаимодействие которых порождает таксономию вопросов из 14 категорий. Два формата вопросов — множественный выбор (выбор наборов) и исполняемые проверки на основе командной оболочки — тестируют как логические рассуждения, так и закрепленность в рабочем пространстве. Текущий выпуск включает 64 сценария, охватывающих 8 профессиональных областей, в сумме составляющих 1 879 раундов оценки и 365 динамических обновлений. Эксперименты с пятью агентскими фреймворками и пятью языковыми моделями показывают, что как возможности модели (разброс 15,4%), так и архитектура фреймворка (9,2%) существенно влияют на производительность, что саморазвивающиеся фреймворки навыков могут частично компенсировать разрыв в возможностях моделей и что сложность пересмотра убеждений определяется стратегией проектирования обновлений, а не просто их наличием. Код доступен по адресу https://github.com/aiming-lab/ClawArena.

English

AI agents deployed as persistent assistants must maintain correct beliefs as their information environment evolves. In practice, evidence is scattered across heterogeneous sources that often contradict one another, new information can invalidate earlier conclusions, and user preferences surface through corrections rather than explicit instructions. Existing benchmarks largely assume static, single-authority settings and do not evaluate whether agents can keep up with this complexity. We introduce ClawArena, a benchmark for evaluating AI agents in evolving information environments. Each scenario maintains a complete hidden ground truth while exposing the agent only to noisy, partial, and sometimes contradictory traces across multi-channel sessions, workspace files, and staged updates. Evaluation is organized around three coupled challenges: multi-source conflict reasoning, dynamic belief revision, and implicit personalization, whose interactions yield a 14-category question taxonomy. Two question formats, multi-choice (set-selection) and shell-based executable checks, test both reasoning and workspace grounding. The current release contains 64 scenarios across 8 professional domains, totaling 1{,}879 evaluation rounds and 365 dynamic updates. Experiments on five agent frameworks and five language models show that both model capability (15.4% range) and framework design (9.2%) substantially affect performance, that self-evolving skill frameworks can partially close model-capability gaps, and that belief revision difficulty is determined by update design strategy rather than the mere presence of updates. Code is available at https://github.com/aiming-lab/ClawArena.

ClawArena: Бенчмаркинг ИИ-агентов в условиях эволюционирующих информационных сред

ClawArena: Benchmarking AI Agents in Evolving Information Environments

Аннотация

Support