ANCHOR : Génération de données de points de branchement pour les agents d'interface graphique

papers.abstract

Les agents d'interface graphique de bout en bout pour les environnements de bureau réels nécessitent de grandes quantités de données d'interaction de haute qualité, mais la collecte de démonstrations humaines est coûteuse et les pipelines synthétiques existants souffrent souvent d'une diversité de tâches limitée ou de trajectoires bruitées avec dérive des objectifs. Nous présentons Anchor, un cadre d'expansion de trajectoires qui génère de manière incrémentale une supervision scalable pour le bureau à partir d'un petit ensemble de démonstrations de référence vérifiées. À partir de chaque démonstration de référence, nous identifions des points de branchement correspondant à des changements d'état significatifs et proposons de nouvelles variantes de tâches ancrées dans l'état, conditionnées par le contexte actuel de l'interface graphique. Un agent d'exécution suit ensuite les instructions proposées pour générer de nouvelles trajectoires, tandis qu'un vérificateur impose l'achèvement des tâches via des contrôles sensibles à l'état et une cohérence au niveau trajectoire. Pour améliorer la qualité de la supervision, nous appliquons en outre un filtrage au niveau des étapes conditionné par la tâche pour supprimer les actions non fondées, et débrutons les segments post-branchement pour maintenir une intention cohérente. Les expériences sur les benchmarks de bureau standard, OSWorld et WindowsAgentArena, montrent que les modèles affinés sur notre corpus étendu obtiennent des améliorations constantes par rapport aux agents zero-shot et aux bases de synthèse représentatives, et généralisent à travers les applications et les systèmes d'exploitation.

English

End-to-end GUI agents for real desktop environments require large amounts of high-quality interaction data, yet collecting human demonstrations is expensive and existing synthetic pipelines often suffer from limited task diversity or noisy, goal-drifting trajectories. We present a trajectory expansion framework Anchor that bootstraps scalable desktop supervision from a small set of verified seed demonstrations. Starting from each seed, we identify branch points that correspond to meaningful state changes and propose new, state-grounded task variants conditioned on the current GUI context. An executing agent then follows the proposed instructions to generate new trajectories, while a verifier enforces task completion via state-aware checks and trajectory-level consistency. To improve supervision quality, we further apply task-conditioned step-level filtering to remove ungrounded actions and denoise post-branch segments to maintain coherent intent. Experiments on standard desktop benchmarks, OSWorld and WindowsAgentArena, show that models fine-tuned on our expanded corpus achieve consistent improvements over zero-shot agents and representative synthesis baselines, and generalize across applications and operating systems.

ANCHOR : Génération de données de points de branchement pour les agents d'interface graphique

ANCHOR: Branch-Point Data Generation for GUI Agents

papers.abstract

Support