Ne vous contentez pas d’affiner l’agent, ajustez l’environnement.
Don't Just Fine-tune the Agent, Tune the Environment
October 11, 2025
papers.authors: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin
cs.AI
papers.abstract
Les agents de modèles de langage de grande taille (LLM) montrent un grand potentiel pour des tâches complexes et multi-tours nécessitant l'utilisation d'outils, mais leur développement est souvent entravé par l'extrême rareté de données d'entraînement de haute qualité. L'affinage supervisé (SFT) sur des données synthétiques conduit à un surapprentissage, tandis que l'apprentissage par renforcement (RL) standard peine à surmonter un problème critique de démarrage à froid et d'instabilité lors de l'entraînement. Pour relever ces défis, nous introduisons l'**Environment Tuning**, un nouveau paradigme d'entraînement qui permet aux agents d'apprendre des comportements complexes directement à partir d'instances de problèmes sans dépendre de trajectoires expertes pré-collectées. L'Environment Tuning orchestre ce processus d'apprentissage à travers un curriculum structuré, une augmentation actionnable de l'environnement fournissant un retour correctif, et des récompenses de progression fines pour assurer une exploration stable et efficace. En utilisant seulement 400 instances de problèmes du benchmark Berkeley Function-Calling Leaderboard (BFCL), notre méthode atteint non seulement des performances compétitives en distribution par rapport à des bases de référence solides, mais démontre également une généralisation supérieure hors distribution, surmontant l'effondrement de performance courant aux approches basées sur le SFT. Notre travail représente un changement de paradigme, passant de l'affinage supervisé sur des trajectoires statiques à une exploration dynamique basée sur l'environnement, ouvrant la voie à l'entraînement d'agents plus robustes et efficaces en termes de données.
English
Large Language Model (LLM) agents show great promise for complex, multi-turn
tool-use tasks, but their development is often hampered by the extreme scarcity
of high-quality training data. Supervised fine-tuning (SFT) on synthetic data
leads to overfitting, whereas standard reinforcement learning (RL) struggles
with a critical cold-start problem and training instability. To address these
challenges, we introduce Environment Tuning, a novel training
paradigm that enables agents to learn complex behaviors directly from problem
instances without relying on pre-collected expert trajectories.
Environment Tuning orchestrates this learning process through a
structured curriculum, actionable environment augmentation that provides
corrective feedback, and fine-grained progress rewards to ensure stable and
efficient exploration. Using only 400 problem instances from Berkeley
Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves
competitive in-distribution performance against strong baselines but also
demonstrates superior out-of-distribution generalization, overcoming the
performance collapse common to SFT-based approaches. Our work presents a
paradigm shift from supervised fine-tuning on static trajectories to dynamic,
environment-based exploration, paving the way for training more robust and
data-efficient agents.