ChatPaper.aiChatPaper

Fara-7B: Ein effizientes agentenbasiertes Modell für die Computernutzung

Fara-7B: An Efficient Agentic Model for Computer Use

November 24, 2025
papers.authors: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao
cs.AI

papers.abstract

Fortschritte bei Computer-Use-Agents (CUAs) wurden bisher durch das Fehlen großer, hochwertiger Datensätze eingeschränkt, die erfassen, wie Menschen mit einem Computer interagieren. Während LLMs von umfangreichen Textdaten profitiert haben, existiert kein vergleichbarer Korpus für CUA-Trajektorien. Um diese Lücken zu schließen, stellen wir FaraGen vor, ein neuartiges synthetisches Datengenerierungssystem für mehrstufige Webaufgaben. FaraGen kann diverse Aufgaben von häufig genutzten Websites vorschlagen, mehrere Lösungsversuche generieren und erfolgreiche Trajektorien mit mehreren Verifizierern filtern. Es erreicht einen hohen Durchsatz, Ertrag und eine hohe Diversität für mehrstufige Webaufgaben und produziert verifizierte Trajektorien zu Kosten von etwa 1 $ pro Stück. Wir nutzen diese Daten, um Fara-7B zu trainieren, ein natives CUA-Modell, das den Computer ausschließlich über Screenshots wahrnimmt, Aktionen über vorhergesagte Koordinaten ausführt und klein genug ist, um auf dem Endgerät zu laufen. Unsere Ergebnisse zeigen, dass Fara-7B andere CUA-Modelle vergleichbarer Größe auf Benchmarks wie WebVoyager, Online-Mind2Web und WebTailBench – unserem neuartigen Benchmark, der unterrepräsentierte Webaufgaben in bestehenden Benchmarks besser erfasst – übertrifft. Darüber hinaus ist Fara-7B mit wesentlich größeren Frontier-Modellen wettbewerbsfähig, was die zentralen Vorteile skalierbarer Datengenerierungssysteme für die Entwicklung kleiner, effizienter agentenbasierter Modelle verdeutlicht. Wir stellen Fara-7B als Open-Weight-Modell auf Microsoft Foundry und HuggingFace zur Verfügung und veröffentlichen WebTailBench.
English
Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.
PDF82December 1, 2025