Claw-Anything: Het benchmarken van altijd-actieve persoonlijke assistenten met bredere toegang tot de digitale wereld van de gebruiker

Samenvatting

Grote taalmodellen agents worden steeds vaker gezien als altijd actieve persoonlijke assistenten met toegang tot alles wat relevant is in de digitale wereld van de gebruiker. Toch werken huidige systemen slechts over smalle delen van die wereld, wat contextgevoelig redeneren en effectieve ondersteuning beperkt. Bestaande benchmarks bieden eveneens slechts gedeeltelijke gebruikersstatus en slagen er daarom niet in om prestaties in zo'n brede, altijd actieve setting te meten. Om deze lacune aan te pakken, introduceren we Claw-Anything, een benchmark die de agentcontext uitbreidt langs drie dimensies: lange-termijnactiviteitengeschiedenissen, onderling afhankelijke backenddiensten en geïntegreerde GUI- en CLI-interactie over meerdere apparaten. Om deze setting te instantiëren, simuleren we maanden van gebruikersactiviteit door middel van meerronde gebeurtenisinjectie, wat complexe wereldtoestanden en realistische ruis oplevert, inclusief irrelevante gebeurtenissen en tegenstrijdige signalen. Agenten moeten redeneren over rijke contextuele omgevingen terwijl ze robuust blijven tegen dergelijke ruis. Deze uitgebreide reikwijdte maakt ook de evaluatie van proactieve ondersteuning mogelijk, waarbij agenten de behoeften van gebruikers moeten anticiperen en tijdige aanbevelingen moeten doen. Experimenten tonen aan dat GPT-5.5 slechts 34,5% pass@1 behaalt, aanzienlijk lager dan eerdere benchmarks, wat een kloof onderstreept tussen huidige agentcapaciteiten en de eisen van altijd actieve persoonlijke assistentie. Naast de benchmark publiceren we een geautomatiseerde datageneratiepijplijn die 2.000 trainingsomgevingen oplevert en het basismodel met 23,7% verbetert, wat het nut van schaalbare datainfrastructuur aantoont.

English

Large language model agents are increasingly envisioned as always-on personal assistants with access to anything relevant in the user's digital world. Yet current systems operate over only narrow slices of that world, limiting context-sensitive reasoning and effective assistance. Existing benchmarks similarly provide only partial user state and therefore fail to capture performance in such a broad, always-on setting. To address this gap, we introduce Claw-Anything, a benchmark that expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices. To instantiate this setting, we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals. Agents must reason over rich contextual environments while remaining robust to such noise. This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations. Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance. Alongside the benchmark, we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure.