ClawBench: ¿Pueden los Agentes de IA Realizar Tareas Cotidianas en Línea?

Resumen

Los agentes de IA pueden automatizar tu bandeja de entrada, pero ¿pueden automatizar otros aspectos rutinarios de tu vida? Las tareas cotidianas en línea ofrecen un banco de pruebas realista y aún sin resolver para evaluar la próxima generación de agentes de IA. Con este fin, presentamos ClawBench, un marco de evaluación con 153 tareas sencillas que las personas necesitan realizar regularmente en su vida y trabajo, abarcando 144 plataformas en vivo de 15 categorías, desde completar compras y reservar citas hasta enviar solicitudes de empleo. Estas tareas requieren capacidades exigentes que van más allá de los puntos de referencia existentes, como obtener información relevante de documentos proporcionados por el usuario, navegar por flujos de trabajo de múltiples pasos en diversas plataformas y operaciones con gran carga de escritura, como rellenar correctamente formularios detallados. A diferencia de los puntos de referencia existentes que evalúan agentes en entornos aislados con páginas estáticas, ClawBench opera en sitios web de producción, preservando la complejidad completa, la naturaleza dinámica y los desafíos de la interacción web del mundo real. Una capa de intercepción ligera captura y bloquea solo la solicitud de envío final, garantizando una evaluación segura sin efectos secundarios en el mundo real. Nuestras evaluaciones de 7 modelos de vanguardia muestran que tanto los modelos propietarios como los de código abierto solo pueden completar una pequeña porción de estas tareas. Por ejemplo, Claude Sonnet 4.6 logra solo un 33,3%. El progreso en ClawBench nos acerca a agentes de IA que puedan funcionar como asistentes generales confiables.

English

AI agents may be able to automate your inbox, but can they automate other routine aspects of your life? Everyday online tasks offer a realistic yet unsolved testbed for evaluating the next generation of AI agents. To this end, we introduce ClawBench, an evaluation framework of 153 simple tasks that people need to accomplish regularly in their lives and work, spanning 144 live platforms across 15 categories, from completing purchases and booking appointments to submitting job applications. These tasks require demanding capabilities beyond existing benchmarks, such as obtaining relevant information from user-provided documents, navigating multi-step workflows across diverse platforms, and write-heavy operations like filling in many detailed forms correctly. Unlike existing benchmarks that evaluate agents in offline sandboxes with static pages, ClawBench operates on production websites, preserving the full complexity, dynamic nature, and challenges of real-world web interaction. A lightweight interception layer captures and blocks only the final submission request, ensuring safe evaluation without real-world side effects. Our evaluations of 7 frontier models show that both proprietary and open-source models can complete only a small portion of these tasks. For example, Claude Sonnet 4.6 achieves only 33.3%. Progress on ClawBench brings us closer to AI agents that can function as reliable general-purpose assistants.

ClawBench: ¿Pueden los Agentes de IA Realizar Tareas Cotidianas en Línea?

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Resumen

Support