No solo ajustes el agente, ajusta el entorno.
Don't Just Fine-tune the Agent, Tune the Environment
October 11, 2025
Autores: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin
cs.AI
Resumen
Los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) muestran un gran potencial para tareas complejas de uso de herramientas en múltiples turnos, pero su desarrollo a menudo se ve obstaculizado por la extrema escasez de datos de entrenamiento de alta calidad. El ajuste fino supervisado (SFT, por sus siglas en inglés) en datos sintéticos conduce a un sobreajuste, mientras que el aprendizaje por refuerzo (RL, por sus siglas en inglés) estándar enfrenta un problema crítico de arranque en frío e inestabilidad en el entrenamiento. Para abordar estos desafíos, presentamos el Ajuste del Entorno, un paradigma de entrenamiento novedoso que permite a los agentes aprender comportamientos complejos directamente a partir de instancias de problemas sin depender de trayectorias expertas previamente recopiladas. El Ajuste del Entorno orquesta este proceso de aprendizaje mediante un currículo estructurado, una ampliación del entorno que proporciona retroalimentación correctiva y recompensas de progreso detalladas para garantizar una exploración estable y eficiente. Utilizando solo 400 instancias de problemas del benchmark Berkeley Function-Calling Leaderboard (BFCL), nuestro método no solo logra un rendimiento competitivo en distribución frente a líneas base sólidas, sino que también demuestra una generalización superior fuera de distribución, superando el colapso de rendimiento común en enfoques basados en SFT. Nuestro trabajo presenta un cambio de paradigma desde el ajuste fino supervisado en trayectorias estáticas hacia una exploración dinámica basada en el entorno, allanando el camino para entrenar agentes más robustos y eficientes en el uso de datos.
English
Large Language Model (LLM) agents show great promise for complex, multi-turn
tool-use tasks, but their development is often hampered by the extreme scarcity
of high-quality training data. Supervised fine-tuning (SFT) on synthetic data
leads to overfitting, whereas standard reinforcement learning (RL) struggles
with a critical cold-start problem and training instability. To address these
challenges, we introduce Environment Tuning, a novel training
paradigm that enables agents to learn complex behaviors directly from problem
instances without relying on pre-collected expert trajectories.
Environment Tuning orchestrates this learning process through a
structured curriculum, actionable environment augmentation that provides
corrective feedback, and fine-grained progress rewards to ensure stable and
efficient exploration. Using only 400 problem instances from Berkeley
Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves
competitive in-distribution performance against strong baselines but also
demonstrates superior out-of-distribution generalization, overcoming the
performance collapse common to SFT-based approaches. Our work presents a
paradigm shift from supervised fine-tuning on static trajectories to dynamic,
environment-based exploration, paving the way for training more robust and
data-efficient agents.