Fara-7B: Эффективная агентная модель для работы с компьютером
Fara-7B: An Efficient Agentic Model for Computer Use
November 24, 2025
Авторы: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao
cs.AI
Аннотация
Прогресс в области компьютерных агентов (CUA) сдерживался отсутствием крупных и качественных наборов данных, фиксирующих взаимодействие человека с компьютером. В то время как большие языковые модели (LLM) развивались благодаря обилию текстовых данных, сопоставимого корпуса для траекторий CUA не существовало. Для устранения этих пробелов мы представляем FaraGen — новую систему синтетической генерации данных для многошаговых веб-задач. FaraGen способна предлагать разнообразные задачи с часто используемых веб-сайтов, генерировать несколько попыток решения и фильтровать успешные траектории с использованием нескольких верификаторов. Система демонстрирует высокую пропускную способность, выход и разнообразие для многошаговых веб-задач, производя проверенные траектории стоимостью примерно $1 каждая. Мы используем эти данные для обучения Fara-7B — нативной модели CUA, которая воспринимает компьютер исключительно через скриншоты, выполняет действия через предсказанные координаты и достаточно мала для работы на устройстве. Мы выяснили, что Fara-7B превосходит другие модели CUA сопоставимого размера в тестах, таких как WebVoyager, Online-Mind2Web и WebTailBench — наш новый бенчмарк, который лучше отражает недостаточно представленные веб-задачи в существующих тестах. Более того, Fara-7B конкурирует с гораздо более крупными фронтирными моделями, что иллюстрирует ключевые преимущества масштабируемых систем генерации данных в развитии небольших эффективных агентских моделей. Мы публикуем Fara-7B с открытыми весами на Microsoft Foundry и HuggingFace и выпускаем WebTailBench.
English
Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.