Escalando Capacidades de Agencia, No Contexto: Ajuste Fino Eficiente mediante Refuerzo para Grandes Espacios de Herramientas

Resumen

Los sistemas agentes que operan sobre grandes ecosistemas de herramientas deben planificar y ejecutar flujos de trabajo de largo horizonte bajo supervisión débil o no verificable. Si bien los modelos de última generación mitigan estos desafíos mediante escala y grandes presupuestos de contexto, los modelos de lenguaje pequeños (SLM, por sus siglas en inglés) siguen siendo frágiles: la carga ansiosa de herramientas satura el contexto, los errores de ejecución se acumulan con el tiempo y las recompensas dispersas limitan el aprendizaje. Presentamos ATLAS, un marco de ajuste fino por refuerzo que permite a los SLM operar eficazmente en entornos de espacios de herramientas a gran escala, aprendiendo a adquirir contexto y a ejecutar acciones. Nuestro enfoque presenta dos contribuciones clave. Primero, tratamos el control del contexto y la estructura de ejecución como decisiones aprendibles, combinando la carga iterativa de herramientas con la orquestación programática de las mismas para acotar el crecimiento del contexto y estabilizar las trayectorias de largo horizonte. Segundo, proponemos un ajuste fino por refuerzo basado en rúbricas, que descompone el éxito de la tarea en criterios estructurados y alineados con la misma, permitiendo un entrenamiento escalable mediante modelos jueces pequeños. En los benchmarks MCP, estas decisiones de diseño producen mejoras grandes y consistentes respecto a líneas base genéricas de RL, permitiendo que un SLM de 4B se aproxime al rendimiento de un agente de última generación con presupuestos de parámetros y contexto mucho más ajustados.

English

Agentic systems operating over large tool ecosystems must plan and execute long-horizon workflows under weak or non-verifiable supervision. While frontier models mitigate these challenges through scale and large context budgets, small language models (SLMs) remain brittle: eager tool loading saturates context, execution errors compound over time, and sparse rewards limit learning. We introduce ATLAS, a reinforcement finetuning framework that enables SLMs to operate effectively in large-scale toolspace environments by learning how to acquire context and how to execute actions. Our approach makes two key contributions. First, we treat context control and execution structure as learnable decisions, combining iterative tool loading with programmatic tool orchestration to bound context growth and stabilize long-horizon trajectories. Second, we propose rubric-based reinforcement finetuning, which decomposes task success into structured, task-aligned criteria and enables scalable training using small judge models. Across MCP benchmarks, these design choices yield large and consistent gains over generic RL baselines, allowing a 4B SLM to approach frontier-agent performance under far tighter parameter and context budgets.

Escalando Capacidades de Agencia, No Contexto: Ajuste Fino Eficiente mediante Refuerzo para Grandes Espacios de Herramientas

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Resumen

Support