ClawBench: Kunnen AI-agents Alledaagse Online Taken Uitvoeren?

Samenvatting

AI-agents kunnen wellicht je inbox automatiseren, maar kunnen ze ook andere routinematige aspecten van je leven automatiseren? Alledaagse online taken bieden een realistisch, maar nog onopgelost, testplatform voor het evalueren van de volgende generatie AI-agents. Hiertoe introduceren we ClawBench, een evaluatieraamwerk bestaande uit 153 eenvoudige taken die mensen regelmatig in hun leven en werk moeten voltooien, verspreid over 144 live platformen in 15 categorieën, van het afronden van aankopen en het boeken van afspraken tot het indienen van sollicitaties. Deze taken vereisen veeleisende capaciteiten die verder gaan dan bestaande benchmarks, zoals het verkrijgen van relevante informatie uit door de gebruiker verstrekte documenten, het navigeren door meerstappenwerkstromen op diverse platformen en schrijfintensieve operaties zoals het correct invullen van gedetailleerde formulieren. In tegenstelling tot bestaande benchmarks die agents evalueren in offline sandboxen met statische pagina's, opereert ClawBench op productiewebsites, waarbij de volledige complexiteit, dynamische aard en uitdagingen van real-world webinteractie behouden blijven. Een lichtgewicht interceptielaag vangt en blokkeert alleen de definitieve indieningsaanvraag, waardoor een veilige evaluatie zonder real-world neveneffecten wordt gegarandeerd. Onze evaluaties van 7 frontier-modellen tonen aan dat zowel propriëtaire als open-source modellen slechts een klein deel van deze taken kunnen voltooien. Claude Sonnet 4.6 behaalt bijvoorbeeld slechts 33,3%. Vooruitgang op ClawBench brengt ons dichter bij AI-agents die kunnen functioneren als betrouwbare algemene assistenten.

English

AI agents may be able to automate your inbox, but can they automate other routine aspects of your life? Everyday online tasks offer a realistic yet unsolved testbed for evaluating the next generation of AI agents. To this end, we introduce ClawBench, an evaluation framework of 153 simple tasks that people need to accomplish regularly in their lives and work, spanning 144 live platforms across 15 categories, from completing purchases and booking appointments to submitting job applications. These tasks require demanding capabilities beyond existing benchmarks, such as obtaining relevant information from user-provided documents, navigating multi-step workflows across diverse platforms, and write-heavy operations like filling in many detailed forms correctly. Unlike existing benchmarks that evaluate agents in offline sandboxes with static pages, ClawBench operates on production websites, preserving the full complexity, dynamic nature, and challenges of real-world web interaction. A lightweight interception layer captures and blocks only the final submission request, ensuring safe evaluation without real-world side effects. Our evaluations of 7 frontier models show that both proprietary and open-source models can complete only a small portion of these tasks. For example, Claude Sonnet 4.6 achieves only 33.3%. Progress on ClawBench brings us closer to AI agents that can function as reliable general-purpose assistants.

ClawBench: Kunnen AI-agents Alledaagse Online Taken Uitvoeren?

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Samenvatting

Support