Niet alleen de agent finetunen, maar ook de omgeving afstemmen
Don't Just Fine-tune the Agent, Tune the Environment
October 11, 2025
Auteurs: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin
cs.AI
Samenvatting
Large Language Model (LLM)-agents tonen veelbelovende resultaten voor complexe, meervoudige toolgebruikstaken, maar hun ontwikkeling wordt vaak belemmerd door de extreme schaarste aan hoogwaardige trainingsdata. Supervised fine-tuning (SFT) op synthetische data leidt tot overfitting, terwijl standaard reinforcement learning (RL) worstelt met een kritiek cold-start-probleem en trainingsinstabiliteit. Om deze uitdagingen aan te pakken, introduceren we Environment Tuning, een nieuw trainingsparadigma dat agents in staat stelt complex gedrag direct te leren vanuit probleeminstanties zonder te vertrouwen op vooraf verzamelde expert-trajecten. Environment Tuning regisseert dit leerproces via een gestructureerd curriculum, uitvoerbare omgevingsaugmentatie die corrigerende feedback biedt, en fijnmazige voortgangsbeloningen om stabiele en efficiënte exploratie te garanderen. Met slechts 400 probleeminstanties van de Berkeley Function-Calling Leaderboard (BFCL)-benchmark bereikt onze methode niet alleen competitieve in-distributieprestaties tegenover sterke baselines, maar demonstreert ook superieure out-of-distributiegeneralizatie, waardoor de prestatie-inzakking die vaak voorkomt bij SFT-gebaseerde benaderingen wordt overwonnen. Ons werk markeert een paradigmaverschuiving van supervised fine-tuning op statische trajecten naar dynamische, omgevingsgebaseerde exploratie, wat de weg vrijmaakt voor het trainen van robuustere en data-efficiëntere agents.
English
Large Language Model (LLM) agents show great promise for complex, multi-turn
tool-use tasks, but their development is often hampered by the extreme scarcity
of high-quality training data. Supervised fine-tuning (SFT) on synthetic data
leads to overfitting, whereas standard reinforcement learning (RL) struggles
with a critical cold-start problem and training instability. To address these
challenges, we introduce Environment Tuning, a novel training
paradigm that enables agents to learn complex behaviors directly from problem
instances without relying on pre-collected expert trajectories.
Environment Tuning orchestrates this learning process through a
structured curriculum, actionable environment augmentation that provides
corrective feedback, and fine-grained progress rewards to ensure stable and
efficient exploration. Using only 400 problem instances from Berkeley
Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves
competitive in-distribution performance against strong baselines but also
demonstrates superior out-of-distribution generalization, overcoming the
performance collapse common to SFT-based approaches. Our work presents a
paradigm shift from supervised fine-tuning on static trajectories to dynamic,
environment-based exploration, paving the way for training more robust and
data-efficient agents.