Claw-Anything: Benchmarking de Assistentes Pessoais Sempre Ativos com Acesso Ampliado ao Mundo Digital do Usuário

Resumo

Os agentes de modelos de linguagem de grande escala são cada vez mais concebidos como assistentes pessoais sempre ativos, com acesso a qualquer informação relevante no mundo digital do usuário. No entanto, os sistemas atuais operam apenas sobre fatias estreitas desse mundo, limitando o raciocínio sensível ao contexto e a assistência eficaz. Os referenciais existentes também fornecem apenas um estado parcial do usuário e, portanto, não conseguem capturar o desempenho em um cenário tão amplo e sempre ativo. Para preencher essa lacuna, apresentamos o Claw-Anything, um referencial que expande o contexto do agente em três dimensões: históricos de atividades de longo prazo, serviços de backend interdependentes e interação integrada entre GUI e CLI em múltiplos dispositivos. Para instanciar esse cenário, simulamos meses de atividade do usuário por meio de injeção de eventos em múltiplas rodadas, produzindo estados de mundo complexos e ruído realista, incluindo eventos irrelevantes e sinais conflitantes. Os agentes devem raciocinar sobre ambientes contextuais ricos, mantendo-se robustos a esse ruído. Esse escopo expandido também permite a avaliação de assistência proativa, exigindo que os agentes antecipem as necessidades do usuário e ofereçam recomendações oportunas. Experimentos mostram que o GPT-5.5 alcança apenas 34,5% de pass@1, substancialmente abaixo dos referenciais anteriores, destacando uma lacuna entre as capacidades atuais dos agentes e as demandas da assistência pessoal sempre ativa. Juntamente com o referencial, disponibilizamos um pipeline automatizado de geração de dados que produz 2.000 ambientes de treinamento e melhora o modelo base em 23,7%, demonstrando a utilidade de uma infraestrutura de dados escalável.

English

Large language model agents are increasingly envisioned as always-on personal assistants with access to anything relevant in the user's digital world. Yet current systems operate over only narrow slices of that world, limiting context-sensitive reasoning and effective assistance. Existing benchmarks similarly provide only partial user state and therefore fail to capture performance in such a broad, always-on setting. To address this gap, we introduce Claw-Anything, a benchmark that expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices. To instantiate this setting, we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals. Agents must reason over rich contextual environments while remaining robust to such noise. This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations. Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance. Alongside the benchmark, we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure.