Fara-7B: Um Modelo de Agente Eficiente para Uso em Computação

Resumo

O progresso nos agentes de uso de computador (CUAs) tem sido limitado pela ausência de conjuntos de dados grandes e de alta qualidade que capturem como os humanos interagem com um computador. Embora os LLMs tenham prosperado com dados textuais abundantes, não existe um corpus comparável para trajetórias de CUAs. Para resolver essas lacunas, apresentamos o FaraGen, um novo sistema de geração de dados sintéticos para tarefas web multi-etapa. O FaraGen pode propor tarefas diversas a partir de sites frequentemente usados, gerar múltiplas tentativas de solução e filtrar trajetórias bem-sucedidas usando múltiplos verificadores. Ele alcança alta produtividade, rendimento e diversidade para tarefas web multi-etapa, produzindo trajetórias verificadas a aproximadamente US$ 1 cada. Usamos esses dados para treinar o Fara-7B, um modelo CUA nativo que percebe o computador usando apenas capturas de tela, executa ações por meio de coordenadas previstas e é pequeno o suficiente para ser executado localmente. Descobrimos que o Fara-7B supera outros modelos CUA de tamanho comparável em benchmarks como WebVoyager, Online-Mind2Web e WebTailBench – nosso novo benchmark que captura melhor tarefas web sub-representadas em benchmarks pré-existentes. Além disso, o Fara-7B é competitivo com modelos de fronteira muito maiores, ilustrando os principais benefícios de sistemas escaláveis de geração de dados no avanço de modelos agentivos pequenos e eficientes. Estamos disponibilizando o Fara-7B como open-weight no Microsoft Foundry e no HuggingFace, e estamos lançando o WebTailBench.

English

Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.

Fara-7B: Um Modelo de Agente Eficiente para Uso em Computação

Fara-7B: An Efficient Agentic Model for Computer Use

Resumo

Support