ChatPaper.aiChatPaper

Fara-7B: Un Modelo de Agente Eficiente para el Uso de Computadoras

Fara-7B: An Efficient Agentic Model for Computer Use

November 24, 2025
Autores: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao
cs.AI

Resumen

El progreso en agentes de uso informático (CUA) se ha visto limitado por la ausencia de conjuntos de datos grandes y de alta calidad que capturen cómo los humanos interactúan con un ordenador. Mientras que los LLM han prosperado gracias a la abundancia de datos textuales, no existe un corpus comparable para las trayectorias de los CUA. Para abordar estas carencias, presentamos FaraGen, un novedoso sistema de generación de datos sintéticos para tareas web multi-etapa. FaraGen puede proponer tareas diversas a partir de sitios web de uso frecuente, generar múltiples intentos de solución y filtrar trayectorias exitosas utilizando múltiples verificadores. Logra un alto rendimiento, productividad y diversidad para tareas web multi-etapa, produciendo trayectorias verificadas a un costo aproximado de $1 cada una. Utilizamos estos datos para entrenar a Fara-7B, un modelo CUA nativo que percibe el ordenador utilizando únicamente capturas de pantalla, ejecuta acciones mediante coordenadas predichas y es lo suficientemente pequeño como para ejecutarse en el dispositivo. Encontramos que Fara-7B supera a otros modelos CUA de tamaño comparable en puntos de referencia como WebVoyager, Online-Mind2Web y WebTailBench —nuestro novedoso benchmark que captura mejor las tareas web subrepresentadas en los benchmarks preexistentes—. Además, Fara-7B es competitivo con modelos de vanguardia mucho más grandes, lo que ilustra los beneficios clave de los sistemas escalables de generación de datos para avanzar en el desarrollo de modelos agentivos pequeños y eficientes. Estamos haciendo que Fara-7B sea de peso abierto en Microsoft Foundry y HuggingFace, y estamos liberando WebTailBench.
English
Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.
PDF82December 1, 2025