Fara-7B: Un Modello Agente Efficiente per l'Utilizzo del Computer
Fara-7B: An Efficient Agentic Model for Computer Use
November 24, 2025
Autori: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao
cs.AI
Abstract
I progressi negli agenti di utilizzo del computer (CUA) sono stati limitati dall'assenza di dataset ampi e di alta qualità che catturino come gli umani interagiscono con un computer. Sebbene i modelli linguistici di grandi dimensioni (LLM) siano cresciuti grazie all'abbondanza di dati testuali, non esiste un corpus paragonabile per le traiettorie dei CUA. Per colmare queste lacune, introduciamo FaraGen, un nuovo sistema di generazione di dati sintetici per attività web multi-step. FaraGen è in grado di proporre attività diversificate da siti web di uso frequente, generare più tentativi di soluzione e filtrare le traiettorie di successo utilizzando più verificatori. Raggiunge un'elevata produttività, resa e diversità per le attività web multi-step, producendo traiettorie verificate al costo di circa 1$ ciascuna. Utilizziamo questi dati per addestrare Fara-7B, un modello CUA nativo che percepisce il computer utilizzando solo screenshot, esegue azioni tramite coordinate previste ed è abbastanza piccolo da essere eseguito su dispositivo. Rileviamo che Fara-7B supera altri modelli CUA di dimensioni comparabili su benchmark come WebVoyager, Online-Mind2Web e WebTailBench – il nostro nuovo benchmark che cattura meglio le attività web sottorappresentate nei benchmark preesistenti. Inoltre, Fara-7B è competitivo con modelli frontier molto più grandi, illustrando i principali vantaggi dei sistemi scalabili di generazione di dati nel far progredire piccoli modelli agentivi efficienti. Renderemo Fara-7B open-weight su Microsoft Foundry e HuggingFace e pubblicheremo WebTailBench.
English
Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.