ClawBench: Способны ли ИИ-агенты выполнять повседневные онлайн-задачи?

Аннотация

Хотя ИИ-агенты способны автоматизировать управление вашим почтовым ящиком, могут ли они автоматизировать другие рутинные аспекты вашей жизни? Повседневные онлайн-задачи представляют собой реалистичный, но пока не решенный полигон для оценки следующего поколения ИИ-агентов. Для этой цели мы представляем ClawBench — оценочный фреймворк из 153 простых задач, которые люди регулярно выполняют в повседневной жизни и работе, охватывающих 144 действующие платформы в 15 категориях: от совершения покупок и бронирования встреч до подачи заявок на вакансии. Эти задачи требуют более продвинутых возможностей по сравнению с существующими бенчмарками, таких как извлечение релевантной информации из предоставленных пользователем документов, навигация по многошаговым процессам на различных платформах и операции с интенсивным заполнением данных, например корректное заполнение сложных форм. В отличие от существующих бенчмарков, оценивающих агентов в офлайн-песочницах со статичными страницами, ClawBench работает на реальных веб-сайтах, сохраняя всю сложность, динамичность и вызовы реального веб-взаимодействия. Облегченный слой перехвата фиксирует и блокирует только финальный запрос на отправку данных, обеспечивая безопасную оценку без реальных побочных эффектов. Наша оценка 7 передовых моделей показывает, что как проприетарные, так и открытые модели способны выполнить лишь небольшую часть этих задач. Например, Claude Sonnet 4.6 достигает показателя всего в 33,3%. Прогресс в ClawBench приближает нас к созданию ИИ-агентов, способных функционировать в качестве надежных универсальных ассистентов.

English

AI agents may be able to automate your inbox, but can they automate other routine aspects of your life? Everyday online tasks offer a realistic yet unsolved testbed for evaluating the next generation of AI agents. To this end, we introduce ClawBench, an evaluation framework of 153 simple tasks that people need to accomplish regularly in their lives and work, spanning 144 live platforms across 15 categories, from completing purchases and booking appointments to submitting job applications. These tasks require demanding capabilities beyond existing benchmarks, such as obtaining relevant information from user-provided documents, navigating multi-step workflows across diverse platforms, and write-heavy operations like filling in many detailed forms correctly. Unlike existing benchmarks that evaluate agents in offline sandboxes with static pages, ClawBench operates on production websites, preserving the full complexity, dynamic nature, and challenges of real-world web interaction. A lightweight interception layer captures and blocks only the final submission request, ensuring safe evaluation without real-world side effects. Our evaluations of 7 frontier models show that both proprietary and open-source models can complete only a small portion of these tasks. For example, Claude Sonnet 4.6 achieves only 33.3%. Progress on ClawBench brings us closer to AI agents that can function as reliable general-purpose assistants.

ClawBench: Способны ли ИИ-агенты выполнять повседневные онлайн-задачи?

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Аннотация

Support