ClawBench : Les agents IA peuvent-ils accomplir des tâches en ligne quotidiennes ?

Résumé

Les agents IA peuvent peut-être automatiser votre boîte de réception, mais peuvent-ils automatiser d'autres aspects routiniers de votre vie ? Les tâches en ligne quotidiennes offrent un banc d'essai réaliste mais non résolu pour évaluer la prochaine génération d'agents IA. À cette fin, nous présentons ClawBench, un cadre d'évaluation comprenant 153 tâches simples que les gens doivent accomplir régulièrement dans leur vie et leur travail, couvrant 144 plateformes en direct réparties dans 15 catégories, allant de la finalisation d'achats et la réservation de rendez-vous à la soumission de candidatures. Ces tâches exigent des capacités dépassant les benchmarks existants, telles que l'obtention d'informations pertinentes à partir de documents fournis par l'utilisateur, la navigation dans des flux de travail multi-étapes sur diverses plateformes, et des opérations fortement rédactionnelles comme le remplissage correct de nombreux formulaires détaillés. Contrairement aux benchmarks existants qui évaluent les agents dans des sandbox hors ligne avec des pages statiques, ClawBench fonctionne sur des sites web en production, préservant toute la complexité, la nature dynamique et les défis de l'interaction web réelle. Une couche d'interception légère capture et bloque uniquement la requête de soumission finale, garantissant une évaluation sûre sans effets secondaires dans le monde réel. Nos évaluations de 7 modèles frontière montrent que les modèles propriétaires et open-source ne peuvent accomplir qu'une petite partie de ces tâches. Par exemple, Claude Sonnet 4.6 n'atteint que 33,3%. Les progrès sur ClawBench nous rapprochent d'agents IA capables de fonctionner comme assistants généralistes fiables.

English

AI agents may be able to automate your inbox, but can they automate other routine aspects of your life? Everyday online tasks offer a realistic yet unsolved testbed for evaluating the next generation of AI agents. To this end, we introduce ClawBench, an evaluation framework of 153 simple tasks that people need to accomplish regularly in their lives and work, spanning 144 live platforms across 15 categories, from completing purchases and booking appointments to submitting job applications. These tasks require demanding capabilities beyond existing benchmarks, such as obtaining relevant information from user-provided documents, navigating multi-step workflows across diverse platforms, and write-heavy operations like filling in many detailed forms correctly. Unlike existing benchmarks that evaluate agents in offline sandboxes with static pages, ClawBench operates on production websites, preserving the full complexity, dynamic nature, and challenges of real-world web interaction. A lightweight interception layer captures and blocks only the final submission request, ensuring safe evaluation without real-world side effects. Our evaluations of 7 frontier models show that both proprietary and open-source models can complete only a small portion of these tasks. For example, Claude Sonnet 4.6 achieves only 33.3%. Progress on ClawBench brings us closer to AI agents that can function as reliable general-purpose assistants.

ClawBench : Les agents IA peuvent-ils accomplir des tâches en ligne quotidiennes ?

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Résumé

Support