ClawArena: Evaluación Comparativa de Agentes de IA en Entornos de Información en Evolución

Resumen

Los agentes de IA desplegados como asistentes persistentes deben mantener creencias correctas a medida que su entorno de información evoluciona. En la práctica, la evidencia se encuentra dispersa en fuentes heterogéneas que a menudo se contradicen entre sí, la nueva información puede invalidar conclusiones anteriores, y las preferencias del usuario se manifiestan mediante correcciones en lugar de instrucciones explícitas. Los puntos de referencia existentes asumen principalmente entornos estáticos y de autoridad única, y no evalúan si los agentes pueden seguir el ritmo de esta complejidad. Presentamos ClawArena, un punto de referencia para evaluar agentes de IA en entornos de información en evolución. Cada escenario mantiene una verdad fundamental completa oculta, mientras expone al agente únicamente a rastros ruidosos, parciales y a veces contradictorios a través de sesiones multicanal, archivos de espacio de trabajo y actualizaciones planificadas. La evaluación se organiza en torno a tres desafíos acoplados: razonamiento sobre conflictos de múltiples fuentes, revisión dinámica de creencias y personalización implícita, cuyas interacciones generan una taxonomía de preguntas de 14 categorías. Dos formatos de pregunta, opción múltiple (selección de conjunto) y comprobaciones ejecutables basadas en shell, evalúan tanto el razonamiento como la fundamentación en el espacio de trabajo. La versión actual contiene 64 escenarios en 8 dominios profesionales, totalizando 1.879 rondas de evaluación y 365 actualizaciones dinámicas. Los experimentos en cinco marcos de agentes y cinco modelos de lenguaje muestran que tanto la capacidad del modelo (rango del 15,4%) como el diseño del marco (9,2%) afectan sustancialmente al rendimiento, que los marcos de habilidades de auto-evolución pueden cerrar parcialmente las brechas de capacidad del modelo, y que la dificultad de revisión de creencias está determinada por la estrategia de diseño de la actualización más que por la mera presencia de actualizaciones. El código está disponible en https://github.com/aiming-lab/ClawArena.

English

AI agents deployed as persistent assistants must maintain correct beliefs as their information environment evolves. In practice, evidence is scattered across heterogeneous sources that often contradict one another, new information can invalidate earlier conclusions, and user preferences surface through corrections rather than explicit instructions. Existing benchmarks largely assume static, single-authority settings and do not evaluate whether agents can keep up with this complexity. We introduce ClawArena, a benchmark for evaluating AI agents in evolving information environments. Each scenario maintains a complete hidden ground truth while exposing the agent only to noisy, partial, and sometimes contradictory traces across multi-channel sessions, workspace files, and staged updates. Evaluation is organized around three coupled challenges: multi-source conflict reasoning, dynamic belief revision, and implicit personalization, whose interactions yield a 14-category question taxonomy. Two question formats, multi-choice (set-selection) and shell-based executable checks, test both reasoning and workspace grounding. The current release contains 64 scenarios across 8 professional domains, totaling 1{,}879 evaluation rounds and 365 dynamic updates. Experiments on five agent frameworks and five language models show that both model capability (15.4% range) and framework design (9.2%) substantially affect performance, that self-evolving skill frameworks can partially close model-capability gaps, and that belief revision difficulty is determined by update design strategy rather than the mere presence of updates. Code is available at https://github.com/aiming-lab/ClawArena.

ClawArena: Evaluación Comparativa de Agentes de IA en Entornos de Información en Evolución

ClawArena: Benchmarking AI Agents in Evolving Information Environments

Resumen

Support