Fara-7B : Un modèle agentiel efficace pour l'utilisation informatique
Fara-7B: An Efficient Agentic Model for Computer Use
November 24, 2025
papers.authors: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao
cs.AI
papers.abstract
Les progrès des agents d'utilisation informatique (CUA) ont été limités par l'absence de jeux de données volumineux et de haute qualité décrivant les interactions humaines avec un ordinateur. Alors que les LLM se sont développés grâce à l'abondance des données textuelles, aucun corpus comparable n'existe pour les trajectoires des CUA. Pour combler ces lacunes, nous présentons FaraGen, un nouveau système de génération de données synthétiques pour les tâches web multi-étapes. FaraGen peut proposer des tâches variées à partir de sites web fréquemment utilisés, générer plusieurs tentatives de résolution et filtrer les trajectoires réussies à l'aide de multiples vérificateurs. Il atteint un haut débit, un rendement et une diversité pour les tâches web multi-étapes, produisant des trajectoires vérifiées à environ 1 $ chacune. Nous utilisons ces données pour entraîner Fara-7B, un modèle CUA natif qui perçoit l'ordinateur en utilisant uniquement des captures d'écran, exécute des actions via des coordonnées prédites et est suffisamment compact pour fonctionner sur appareil. Nous constatons que Fara-7B surpasse les autres modèles CUA de taille comparable sur des benchmarks comme WebVoyager, Online-Mind2Web et WebTailBench — notre nouveau benchmark qui capture mieux les tâches web sous-représentées dans les benchmarks existants. De plus, Fara-7B est compétitif avec des modèles frontaliers bien plus grands, illustrant les avantages clés des systèmes de génération de données évolutifs pour faire progresser les modèles agentiels petits et efficaces. Nous rendons Fara-7B open-weight sur Microsoft Foundry et HuggingFace, et nous publions WebTailBench.
English
Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.