Claw-Anything: бенчмаркинг постоянно активных персональных ассистентов с более широким доступом к цифровому миру пользователя

Аннотация

Агенты на основе больших языковых моделей всё чаще рассматриваются как постоянно активные персональные помощники, имеющие доступ ко всему, что имеет значение в цифровом мире пользователя. Однако современные системы работают лишь с узкими фрагментами этого мира, что ограничивает контекстно-зависимые рассуждения и эффективную помощь. Существующие бенчмарки также предоставляют лишь частичное состояние пользователя и поэтому не позволяют оценить производительность в таком широком, постоянно активном режиме. Для устранения этого пробела мы представляем Claw-Anything — бенчмарк, расширяющий контекст агента по трём измерениям: долгосрочные истории действий, взаимозависимые внутренние сервисы и интегрированное взаимодействие с графическим и командным интерфейсами на нескольких устройствах. Для реализации этой среды мы моделируем месяцы активности пользователя с помощью многораундовой инъекции событий, создавая сложные состояния мира и реалистичный шум, включая нерелевантные события и противоречивые сигналы. Агенты должны рассуждать в богатых контекстных средах, оставаясь устойчивыми к такому шуму. Этот расширенный масштаб также позволяет оценивать проактивную помощь, требующую от агентов предвидеть потребности пользователя и своевременно давать рекомендации. Эксперименты показывают, что GPT-5.5 достигает лишь 34,5% pass@1, что значительно ниже предыдущих бенчмарков, подчёркивая разрыв между текущими возможностями агентов и требованиями постоянно активной персональной помощи. Наряду с бенчмарком мы выпускаем автоматизированный конвейер генерации данных, который создаёт 2 000 обучающих сред и улучшает базовую модель на 23,7%, демонстрируя полезность масштабируемой инфраструктуры данных.

English

Large language model agents are increasingly envisioned as always-on personal assistants with access to anything relevant in the user's digital world. Yet current systems operate over only narrow slices of that world, limiting context-sensitive reasoning and effective assistance. Existing benchmarks similarly provide only partial user state and therefore fail to capture performance in such a broad, always-on setting. To address this gap, we introduce Claw-Anything, a benchmark that expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices. To instantiate this setting, we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals. Agents must reason over rich contextual environments while remaining robust to such noise. This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations. Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance. Alongside the benchmark, we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure.