Claw-Anything: Benchmarking de asistentes personales siempre activos con acceso más amplio al mundo digital del usuario

Resumen

Los agentes de modelos de lenguaje grande se conciben cada vez más como asistentes personales siempre activos con acceso a cualquier elemento relevante en el mundo digital del usuario. Sin embargo, los sistemas actuales operan solo sobre fragmentos reducidos de ese mundo, lo que limita el razonamiento sensible al contexto y la asistencia eficaz. Los puntos de referencia existentes también proporcionan solo un estado de usuario parcial y, por lo tanto, no logran capturar el rendimiento en un entorno tan amplio y siempre activo. Para abordar esta brecha, presentamos Claw-Anything, un punto de referencia que expande el contexto del agente en tres dimensiones: historiales de actividad a largo plazo, servicios backend interdependientes e interacción integrada de GUI y CLI en múltiples dispositivos. Para implementar este escenario, simulamos meses de actividad de usuario mediante la inyección de eventos en múltiples rondas, generando estados del mundo complejos y ruido realista, incluidos eventos irrelevantes y señales conflictivas. Los agentes deben razonar sobre entornos contextuales ricos mientras se mantienen robustos frente a dicho ruido. Este alcance ampliado también permite la evaluación de la asistencia proactiva, lo que requiere que los agentes anticipen las necesidades del usuario y ofrezcan recomendaciones oportunas. Los experimentos muestran que GPT-5.5 alcanza solo un 34.5% de pass@1, sustancialmente por debajo de los puntos de referencia anteriores, lo que subraya una brecha entre las capacidades actuales de los agentes y las exigencias de la asistencia personal siempre activa. Junto con el punto de referencia, publicamos un pipeline automatizado de generación de datos que produce 2,000 entornos de entrenamiento y mejora el modelo base en un 23.7%, demostrando la utilidad de una infraestructura de datos escalable.

English

Large language model agents are increasingly envisioned as always-on personal assistants with access to anything relevant in the user's digital world. Yet current systems operate over only narrow slices of that world, limiting context-sensitive reasoning and effective assistance. Existing benchmarks similarly provide only partial user state and therefore fail to capture performance in such a broad, always-on setting. To address this gap, we introduce Claw-Anything, a benchmark that expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices. To instantiate this setting, we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals. Agents must reason over rich contextual environments while remaining robust to such noise. This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations. Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance. Alongside the benchmark, we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure.