Claw-Anything : Évaluation comparative des assistants personnels toujours actifs avec un accès élargi au monde numérique de l'utilisateur

Résumé

Les agents basés sur de grands modèles de langage sont de plus en plus envisagés comme des assistants personnels permanents, capables d'accéder à tout élément pertinent de l'univers numérique de l'utilisateur. Pourtant, les systèmes actuels n'opèrent que sur des fragments limités de cet univers, restreignant ainsi le raisonnement contextuel et l'assistance efficace. Les benchmarks existants ne fournissent également qu'un état partiel de l'utilisateur et échouent donc à capturer les performances dans un cadre aussi large et permanent. Pour combler cette lacune, nous présentons Claw-Anything, un benchmark qui élargit le contexte de l'agent selon trois dimensions : les historiques d'activité à long terme, les services backend interdépendants, et l'interaction intégrée entre interface graphique (GUI) et ligne de commande (CLI) sur plusieurs appareils. Pour concrétiser ce cadre, nous simulons des mois d'activité utilisateur via une injection d'événements en plusieurs cycles, produisant des états du monde complexes et un bruit réaliste, incluant des événements non pertinents et des signaux contradictoires. Les agents doivent raisonner sur des environnements contextuels riches tout en restant robustes face à ce bruit. Cette portée élargie permet également d'évaluer l'assistance proactive, exigeant que les agents anticipent les besoins de l'utilisateur et fournissent des recommandations en temps opportun. Les expériences montrent que GPT-5.5 n'atteint qu'un score de 34,5 % en pass@1, bien en deçà des benchmarks précédents, soulignant un écart entre les capacités actuelles des agents et les exigences d'une assistance personnelle permanente. En parallèle du benchmark, nous publions un pipeline automatisé de génération de données qui produit 2 000 environnements d'entraînement et améliore le modèle de base de 23,7 %, démontrant ainsi l'utilité d'une infrastructure de données évolutive.

English

Large language model agents are increasingly envisioned as always-on personal assistants with access to anything relevant in the user's digital world. Yet current systems operate over only narrow slices of that world, limiting context-sensitive reasoning and effective assistance. Existing benchmarks similarly provide only partial user state and therefore fail to capture performance in such a broad, always-on setting. To address this gap, we introduce Claw-Anything, a benchmark that expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices. To instantiate this setting, we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals. Agents must reason over rich contextual environments while remaining robust to such noise. This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations. Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance. Alongside the benchmark, we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure.