Fara-7B: Een efficiënt agentmodel voor computergebruik
Fara-7B: An Efficient Agentic Model for Computer Use
November 24, 2025
Auteurs: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao
cs.AI
Samenvatting
De vooruitgang in computergebruikagenten (CGA's) wordt belemmerd door het ontbreken van grote en hoogwaardige datasets die vastleggen hoe mensen met een computer omgaan. Hoewel grote taalmodelen (LTM's) hebben gebloeid dankzij overvloedige tekstuele gegevens, bestaat er geen vergelijkbaar corpus voor CGA-trajecten. Om deze lacunes aan te pakken, introduceren wij FaraGen, een nieuw systeem voor het genereren van synthetische gegevens voor meerstaps webtaken. FaraGen kan diverse taken voorstellen op basis van veelgebruikte websites, meerdere oplossingspogingen genereren en succesvolle trajecten filteren met behulp van meerdere verificatiemethoden. Het bereikt een hoge doorvoer, opbrengst en diversiteit voor meerstaps webtaken, waarbij geverifieerde trajecten worden geproduceerd voor ongeveer $1 per stuk. Wij gebruiken deze gegevens om Fara-7B te trainen, een native CGA-model dat de computer waarneemt uitsluitend via schermafbeeldingen, acties uitvoert via voorspelde coördinaten en klein genoeg is om on-device te draaien. Wij stellen vast dat Fara-7B andere CGA-modellen van vergelijkbare omvang overtreft op benchmarks zoals WebVoyager, Online-Mind2Web en WebTailBench – onze nieuwe benchmark die ondervertegenwoordigde webtaken in bestaande benchmarks beter weergeeft. Bovendien is Fara-7B concurrerend met veel grotere frontier-modellen, wat de belangrijkste voordelen illustreert van schaalbare gegevensgeneratiesystemen bij de vooruitgang van kleine, efficiënte agentmodellen. Wij maken Fara-7B open-weight beschikbaar op Microsoft Foundry en HuggingFace, en wij geven WebTailBench vrij.
English
Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.