ClawBench: Können KI-Agenten alltägliche Online-Aufgaben bewältigen?

Zusammenfassung

KI-Agents können möglicherweise Ihren Posteingang automatisieren, aber können sie auch andere Routineaspekte Ihres Lebens automatisieren? Alltägliche Online-Aufgaben bieten ein realistisches, aber noch ungelöstes Testfeld für die Bewertung der nächsten Generation von KI-Agents. Zu diesem Zweck stellen wir ClawBench vor, ein Evaluierungsframework mit 153 einfachen Aufgaben, die Menschen regelmäßig in ihrem Leben und ihrer Arbeit bewältigen müssen. Diese Aufgaben erstrecken sich über 144 Live-Plattformen in 15 Kategorien, vom Abschluss von Einkäufen und der Buchung von Terminen bis zur Einreichung von Jobbewerbungen. Diese Aufgaben erfordern anspruchsvollere Fähigkeiten als bestehende Benchmarks, wie das Extrahieren relevanter Informationen aus benutzerbereitgestellten Dokumenten, die Navigation durch mehrstufige Workflows auf verschiedenen Plattformen und schreibintensive Operationen wie das korrekte Ausfüllen detaillierter Formulare. Im Gegensatz zu bestehenden Benchmarks, die Agents in Offline-Sandboxes mit statischen Seiten testen, operiert ClawBench auf Produktions-Websites und bewahrt so die volle Komplexität, Dynamik und Herausforderungen realer Web-Interaktionen. Eine leichtgewichtige Abfangschicht erfasst und blockiert nur die finale Übermittlungsanfrage, was eine sichere Evaluation ohne reale Nebenwirkungen gewährleistet. Unsere Auswertungen von 7 Spitzenmodellen zeigen, dass sowohl proprietäre als auch Open-Source-Modelle nur einen kleinen Teil dieser Aufgaben bewältigen können. Beispielsweise erreicht Claude Sonnet 4.6 lediglich 33,3%. Fortschritte bei ClawBench bringen uns KI-Agents näher, die als zuverlässige Allzweck-Assistenten fungieren können.

English

AI agents may be able to automate your inbox, but can they automate other routine aspects of your life? Everyday online tasks offer a realistic yet unsolved testbed for evaluating the next generation of AI agents. To this end, we introduce ClawBench, an evaluation framework of 153 simple tasks that people need to accomplish regularly in their lives and work, spanning 144 live platforms across 15 categories, from completing purchases and booking appointments to submitting job applications. These tasks require demanding capabilities beyond existing benchmarks, such as obtaining relevant information from user-provided documents, navigating multi-step workflows across diverse platforms, and write-heavy operations like filling in many detailed forms correctly. Unlike existing benchmarks that evaluate agents in offline sandboxes with static pages, ClawBench operates on production websites, preserving the full complexity, dynamic nature, and challenges of real-world web interaction. A lightweight interception layer captures and blocks only the final submission request, ensuring safe evaluation without real-world side effects. Our evaluations of 7 frontier models show that both proprietary and open-source models can complete only a small portion of these tasks. For example, Claude Sonnet 4.6 achieves only 33.3%. Progress on ClawBench brings us closer to AI agents that can function as reliable general-purpose assistants.

ClawBench: Können KI-Agenten alltägliche Online-Aufgaben bewältigen?

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Zusammenfassung

Support