No solo ajustes el agente, ajusta el entorno.

Resumen

Los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) muestran un gran potencial para tareas complejas de uso de herramientas en múltiples turnos, pero su desarrollo a menudo se ve obstaculizado por la extrema escasez de datos de entrenamiento de alta calidad. El ajuste fino supervisado (SFT, por sus siglas en inglés) en datos sintéticos conduce a un sobreajuste, mientras que el aprendizaje por refuerzo (RL, por sus siglas en inglés) estándar enfrenta un problema crítico de arranque en frío e inestabilidad en el entrenamiento. Para abordar estos desafíos, presentamos el Ajuste del Entorno, un paradigma de entrenamiento novedoso que permite a los agentes aprender comportamientos complejos directamente a partir de instancias de problemas sin depender de trayectorias expertas previamente recopiladas. El Ajuste del Entorno orquesta este proceso de aprendizaje mediante un currículo estructurado, una ampliación del entorno que proporciona retroalimentación correctiva y recompensas de progreso detalladas para garantizar una exploración estable y eficiente. Utilizando solo 400 instancias de problemas del benchmark Berkeley Function-Calling Leaderboard (BFCL), nuestro método no solo logra un rendimiento competitivo en distribución frente a líneas base sólidas, sino que también demuestra una generalización superior fuera de distribución, superando el colapso de rendimiento común en enfoques basados en SFT. Nuestro trabajo presenta un cambio de paradigma desde el ajuste fino supervisado en trayectorias estáticas hacia una exploración dinámica basada en el entorno, allanando el camino para entrenar agentes más robustos y eficientes en el uso de datos.

English

Large Language Model (LLM) agents show great promise for complex, multi-turn tool-use tasks, but their development is often hampered by the extreme scarcity of high-quality training data. Supervised fine-tuning (SFT) on synthetic data leads to overfitting, whereas standard reinforcement learning (RL) struggles with a critical cold-start problem and training instability. To address these challenges, we introduce Environment Tuning, a novel training paradigm that enables agents to learn complex behaviors directly from problem instances without relying on pre-collected expert trajectories. Environment Tuning orchestrates this learning process through a structured curriculum, actionable environment augmentation that provides corrective feedback, and fine-grained progress rewards to ensure stable and efficient exploration. Using only 400 problem instances from Berkeley Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves competitive in-distribution performance against strong baselines but also demonstrates superior out-of-distribution generalization, overcoming the performance collapse common to SFT-based approaches. Our work presents a paradigm shift from supervised fine-tuning on static trajectories to dynamic, environment-based exploration, paving the way for training more robust and data-efficient agents.

No solo ajustes el agente, ajusta el entorno.

Don't Just Fine-tune the Agent, Tune the Environment

Resumen

Support