ANCHOR: Geração de Dados de Pontos de Ramificação para Agentes de Interface Gráfica

Resumo

Agentes de GUI de ponta a ponta para ambientes de desktop reais exigem grandes quantidades de dados de interação de alta qualidade. No entanto, a coleta de demonstrações humanas é dispendiosa e os pipelines sintéticos existentes frequentemente sofrem com diversidade limitada de tarefas ou trajetórias ruidosas e com desvio de objetivo. Apresentamos o Anchor, uma estrutura de expansão de trajetória que inicia a supervisão escalável de desktop a partir de um pequeno conjunto de demonstrações iniciais verificadas. A partir de cada semente, identificamos pontos de ramificação que correspondem a alterações de estado significativas e propomos novas variantes de tarefas fundamentadas no estado, condicionadas ao contexto atual da GUI. Um agente executor segue então as instruções propostas para gerar novas trajetórias, enquanto um verificador impõe a conclusão da tarefa por meio de verificações com consciência do estado e consistência a nível de trajetória. Para melhorar a qualidade da supervisão, aplicamos ainda uma filtragem a nível de etapa condicionada à tarefa para remover ações infundadas e removemos o ruído dos segmentos pós-ramificação para manter uma intenção coerente. Experimentos em benchmarks padrão de desktop, OSWorld e WindowsAgentArena, mostram que modelos ajustados com nosso corpus expandido alcançam melhorias consistentes em relação a agentes *zero-shot* e baselines de síntese representativos, e generalizam entre aplicações e sistemas operacionais.

English

End-to-end GUI agents for real desktop environments require large amounts of high-quality interaction data, yet collecting human demonstrations is expensive and existing synthetic pipelines often suffer from limited task diversity or noisy, goal-drifting trajectories. We present a trajectory expansion framework Anchor that bootstraps scalable desktop supervision from a small set of verified seed demonstrations. Starting from each seed, we identify branch points that correspond to meaningful state changes and propose new, state-grounded task variants conditioned on the current GUI context. An executing agent then follows the proposed instructions to generate new trajectories, while a verifier enforces task completion via state-aware checks and trajectory-level consistency. To improve supervision quality, we further apply task-conditioned step-level filtering to remove ungrounded actions and denoise post-branch segments to maintain coherent intent. Experiments on standard desktop benchmarks, OSWorld and WindowsAgentArena, show that models fine-tuned on our expanded corpus achieve consistent improvements over zero-shot agents and representative synthesis baselines, and generalize across applications and operating systems.