Computadores Sintéticos em Escala para Simulação de Produtividade de Longo Horizonte

Resumo

O trabalho produtivo realista de longo prazo está fortemente condicionado a ambientes computacionais específicos do utilizador, onde grande parte do contexto de trabalho é armazenado e organizado através de estruturas de diretórios e artefactos ricos em conteúdo. Para dimensionar a criação de dados sintéticos para tais cenários de produtividade, introduzimos Computadores Sintéticos em Escala, uma metodologia escalável para criar tais ambientes com hierarquias de pastas realistas e artefactos ricos em conteúdo (por exemplo, documentos, folhas de cálculo e apresentações). Condicionado a cada computador sintético, executamos simulações de longo prazo: um agente cria objetivos de produtividade específicos para o utilizador do computador e que exigem múltiplos entregáveis profissionais e cerca de um mês de trabalho humano; outro agente atua então como esse utilizador e continua a trabalhar no computador — por exemplo, navegando no sistema de ficheiros para contextualização, coordenando com colaboradores simulados e produzindo artefactos profissionais — até que estes objetivos sejam concluídos. Em experiências preliminares, criámos 1.000 computadores sintéticos e executámos simulações de longo prazo neles; cada execução requer mais de 8 horas de tempo de execução do agente e abrange em média mais de 2.000 interações. Estas simulações produzem sinais ricos de aprendizagem experiencial, cuja eficácia é validada por melhorias significativas no desempenho do agente em avaliações de produtividade tanto dentro como fora do domínio. Dado que as personas são abundantes em escala de milhares de milhões, esta metodologia pode, em princípio, ser dimensionada para milhões ou mesmo milhares de milhões de mundos de utilizadores sintéticos com capacidade computacional suficiente, permitindo uma cobertura mais ampla de diversas profissões, funções, contextos, ambientes e necessidades de produtividade. Argumentamos que a criação escalável de computadores sintéticos, juntamente com simulações em grande escala, é altamente promissora como um substrato fundamental para a autoaprimoração de agentes e para a aprendizagem por reforço agentiva em cenários de produtividade de longo prazo.

English

Realistic long-horizon productivity work is strongly conditioned on user-specific computer environments, where much of the work context is stored and organized through directory structures and content-rich artifacts. To scale synthetic data creation for such productivity scenarios, we introduce Synthetic Computers at Scale, a scalable methodology for creating such environments with realistic folder hierarchies and content-rich artifacts (e.g., documents, spreadsheets, and presentations). Conditioned on each synthetic computer, we run long-horizon simulations: one agent creates productivity objectives that are specific to the computer's user and require multiple professional deliverables and about a month of human work; another agent then acts as that user and keeps working across the computer -- for example, navigating the filesystem for grounding, coordinating with simulated collaborators, and producing professional artifacts -- until these objectives are completed. In preliminary experiments, we create 1,000 synthetic computers and run long-horizon simulations on them; each run requires over 8 hours of agent runtime and spans more than 2,000 turns on average. These simulations produce rich experiential learning signals, whose effectiveness is validated by significant improvements in agent performance on both in-domain and out-of-domain productivity evaluations. Given that personas are abundant at billion scale, this methodology can in principle scale to millions or even billions of synthetic user worlds with sufficient compute, enabling broader coverage of diverse professions, roles, contexts, environments, and productivity needs. We argue that scalable synthetic computer creation, together with at-scale simulations, is highly promising as a foundational substrate for agent self-improvement and agentic reinforcement learning in long-horizon productivity scenarios.

Computadores Sintéticos em Escala para Simulação de Produtividade de Longo Horizonte

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

Resumo

Support