ANCHOR: Генерация данных о точках ветвления для GUI-агентов

Аннотация

Агенты с графическим интерфейсом для реальных рабочих сред, работающие по принципу "конец-в-конец", требуют больших объемов высококачественных данных о взаимодействии, однако сбор человеческих демонстраций является дорогостоящим, а существующие синтетические пайплайны часто страдают от ограниченного разнообразия задач или зашумленных траекторий с отклонением от цели. Мы представляем фреймворк расширения траекторий Anchor, который позволяет получать масштабируемые данные для обучения работе с рабочим столом из небольшого набора проверенных исходных демонстраций. Начиная с каждой исходной демонстрации, мы идентифицируем точки ветвления, соответствующие значимым изменениям состояния, и предлагаем новые, основанные на состоянии варианты задач, обусловленные текущим контекстом GUI. Затем исполняющий агент следует предложенным инструкциям для генерации новых траекторий, в то время как верификатор обеспечивает выполнение задачи с помощью проверок, учитывающих состояние, и согласованности на уровне траектории. Для повышения качества данных обучения мы дополнительно применяем условную фильтрацию на уровне шагов для удаления нефундированных действий и очистки сегментов после ветвления для сохранения последовательности намерения. Эксперименты на стандартных бенчмарках для рабочего стола, OSWorld и WindowsAgentArena, показывают, что модели, дообученные на нашем расширенном корпусе, демонстрируют стабильное улучшение по сравнению с zero-shot агентами и репрезентативными синтетическими базовыми методами, а также обладают способностью к обобщению между приложениями и операционными системами.

English

End-to-end GUI agents for real desktop environments require large amounts of high-quality interaction data, yet collecting human demonstrations is expensive and existing synthetic pipelines often suffer from limited task diversity or noisy, goal-drifting trajectories. We present a trajectory expansion framework Anchor that bootstraps scalable desktop supervision from a small set of verified seed demonstrations. Starting from each seed, we identify branch points that correspond to meaningful state changes and propose new, state-grounded task variants conditioned on the current GUI context. An executing agent then follows the proposed instructions to generate new trajectories, while a verifier enforces task completion via state-aware checks and trajectory-level consistency. To improve supervision quality, we further apply task-conditioned step-level filtering to remove ungrounded actions and denoise post-branch segments to maintain coherent intent. Experiments on standard desktop benchmarks, OSWorld and WindowsAgentArena, show that models fine-tuned on our expanded corpus achieve consistent improvements over zero-shot agents and representative synthesis baselines, and generalize across applications and operating systems.

ANCHOR: Генерация данных о точках ветвления для GUI-агентов

ANCHOR: Branch-Point Data Generation for GUI Agents

Аннотация

Support