ChatPaper.aiChatPaper

Fara-7B: 컴퓨터 활용을 위한 효율적인 에이전트 모델

Fara-7B: An Efficient Agentic Model for Computer Use

November 24, 2025
저자: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao
cs.AI

초록

컴퓨터 사용 에이전트(CUA)의 발전은 인간의 컴퓨터 상호작용 방식을 포착하는 대규모 고품질 데이터셋의 부재로 인해 제약을 받아왔습니다. 대규모 언어 모델(LLM)이 풍부한 텍스트 데이터로 발전하는 동안, CUA 트랙토리(trajectory)에 상응하는 코퍼스는 존재하지 않았습니다. 이러한 격차를 해결하기 위해 우리는 다단계 웹 작업을 위한 새로운 합성 데이터 생성 시스템인 FaraGen을 소개합니다. FaraGen은 자주 사용되는 웹사이트에서 다양한 작업을 제안하고, 여러 해결 시도를 생성하며, 다중 검증기를 사용하여 성공적인 트랙토리를 필터링할 수 있습니다. 이 시스템은 다단계 웹 작업에 대해 높은 처리량, 수율 및 다양성을 달성하며, 검증된 트랙토리를 약 $1당 생성합니다. 우리는 이 데이터를 사용해 Fara-7B를 학습시켰습니다. Fara-7B는 스크린샷만으로 컴퓨터를 인지하고, 예측된 좌표를 통해 액션을 실행하며, 온디바이스에서 실행될 수 있을 만큼 작은 네이티브 CUA 모델입니다. 우리는 Fara-7B가 WebVoyager, Online-Mind2Web, 그리고 기존 벤치마크에서 저조하게 나타나는 웹 작업을 더 잘 포착하는 우리의 새로운 벤치마크인 WebTailBench에서 동급 규모의 다른 CUA 모델들을 능가함을 확인했습니다. 더 나아가 Fara-7B는 훨씬 더 큰 최첨단 모델들과도 경쟁력을 보여주며, 작고 효율적인 에이전트 모델 발전에 확장 가능한 데이터 생성 시스템의 핵심 이점을 입증합니다. 우리는 Fara-7B를 Microsoft Foundry와 HuggingFace에 오픈웨이트(open-weight)로 공개하며, WebTailBench도 함께 릴리스합니다.
English
Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.
PDF82December 1, 2025