Fara-7B:コンピュータ利用のための効率的なエージェンシーモデル
Fara-7B: An Efficient Agentic Model for Computer Use
November 24, 2025
著者: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao
cs.AI
要旨
コンピュータ利用エージェント(CUA)の進歩は、人間のコンピュータ操作を捉えた大規模で高品質なデータセットの不足によって制約されてきた。大規模言語モデル(LLM)が豊富なテキストデータで発展する一方で、CUAの軌跡に関しては同等のコーパスが存在しない。この課題を解決するため、我々は多段階Webタスク向けの新規合成データ生成システム「FaraGen」を提案する。FaraGenは、頻繁に利用されるWebサイトから多様なタスクを提案し、複数の解決試行を生成し、複数の検証器を用いて成功した軌跡をフィルタリングできる。本システムは多段階Webタスクにおいて高スループット、高収率、高多様性を実現し、検証済み軌跡を約1ドルで生成する。このデータを用いて、スクリーンショットのみでコンピュータを認識し、座標予測を通じてアクションを実行し、オンデバイスで動作可能な小型のネイティブCUAモデル「Fara-7B」を学習した。Fara-7Bは、WebVoyager、Online-Mind2Web、および既存ベンチマークで過少評価されていたWebタスクをより適切に捉える新規ベンチマーク「WebTailBench」において、同規模の他CUAモデルを凌駕する。さらに、Fara-7Bは遥かに大規模な先進モデルとも互角の性能を示し、スケーラブルなデータ生成システムが小型高効率なエージェントモデルを進歩させる上での重要性を実証する。我々はFara-7BをMicrosoft FoundryおよびHuggingFaceでオープンウェイト公開し、WebTailBenchをリリースする。
English
Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.