Claw-Anything: Benchmarking ständig aktiver persönlicher Assistenten mit breiterem Zugriff auf die digitale Welt des Benutzers

Zusammenfassung

Agenten auf Basis großer Sprachmodelle werden zunehmend als ständig verfügbare persönliche Assistenten konzipiert, die Zugriff auf alles Relevante in der digitalen Welt des Nutzers haben. Dennoch arbeiten aktuelle Systeme nur über schmale Ausschnitte dieser Welt, was kontextsensitives Denken und effektive Unterstützung einschränkt. Vorhandene Benchmarks liefern ebenfalls nur einen partiellen Nutzerzustand und versagen daher, die Leistung in einem derart breiten, ständig verfügbaren Szenario zu erfassen. Um diese Lücke zu schließen, führen wir Claw-Anything ein, einen Benchmark, der den Agentenkontext entlang dreier Dimensionen erweitert: langfristige Aktivitätsverläufe, voneinander abhängige Backend-Dienste sowie integrierte GUI- und CLI-Interaktion über mehrere Geräte hinweg. Zur Umsetzung dieses Szenarios simulieren wir Monate von Nutzeraktivitäten durch mehrstufige Ereignisinjektion, die komplexe Weltzustände und realistisches Rauschen erzeugen, darunter irrelevante Ereignisse und widersprüchliche Signale. Agenten müssen über reichhaltige kontextuelle Umgebungen nachdenken und gleichzeitig robust gegenüber solchem Rauschen bleiben. Dieser erweiterte Umfang ermöglicht auch die Bewertung proaktiver Unterstützung, bei der Agenten Benutzerbedürfnisse antizipieren und zeitnahe Empfehlungen geben müssen. Experimente zeigen, dass GPT-5.5 nur 34,5% pass@1 erreicht, wesentlich unter früheren Benchmarks, was eine Kluft zwischen den aktuellen Agentenfähigkeiten und den Anforderungen einer ständig verfügbaren persönlichen Assistenz unterstreicht. Zusammen mit dem Benchmark veröffentlichen wir eine automatisierte Datengenerierungspipeline, die 2.000 Trainingsumgebungen erzeugt und das Basismodell um 23,7% verbessert, was den Nutzen einer skalierbaren Dateninfrastruktur demonstriert.

English

Large language model agents are increasingly envisioned as always-on personal assistants with access to anything relevant in the user's digital world. Yet current systems operate over only narrow slices of that world, limiting context-sensitive reasoning and effective assistance. Existing benchmarks similarly provide only partial user state and therefore fail to capture performance in such a broad, always-on setting. To address this gap, we introduce Claw-Anything, a benchmark that expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices. To instantiate this setting, we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals. Agents must reason over rich contextual environments while remaining robust to such noise. This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations. Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance. Alongside the benchmark, we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure.