Niet alleen de agent finetunen, maar ook de omgeving afstemmen

Samenvatting

Large Language Model (LLM)-agents tonen veelbelovende resultaten voor complexe, meervoudige toolgebruikstaken, maar hun ontwikkeling wordt vaak belemmerd door de extreme schaarste aan hoogwaardige trainingsdata. Supervised fine-tuning (SFT) op synthetische data leidt tot overfitting, terwijl standaard reinforcement learning (RL) worstelt met een kritiek cold-start-probleem en trainingsinstabiliteit. Om deze uitdagingen aan te pakken, introduceren we Environment Tuning, een nieuw trainingsparadigma dat agents in staat stelt complex gedrag direct te leren vanuit probleeminstanties zonder te vertrouwen op vooraf verzamelde expert-trajecten. Environment Tuning regisseert dit leerproces via een gestructureerd curriculum, uitvoerbare omgevingsaugmentatie die corrigerende feedback biedt, en fijnmazige voortgangsbeloningen om stabiele en efficiënte exploratie te garanderen. Met slechts 400 probleeminstanties van de Berkeley Function-Calling Leaderboard (BFCL)-benchmark bereikt onze methode niet alleen competitieve in-distributieprestaties tegenover sterke baselines, maar demonstreert ook superieure out-of-distributiegeneralizatie, waardoor de prestatie-inzakking die vaak voorkomt bij SFT-gebaseerde benaderingen wordt overwonnen. Ons werk markeert een paradigmaverschuiving van supervised fine-tuning op statische trajecten naar dynamische, omgevingsgebaseerde exploratie, wat de weg vrijmaakt voor het trainen van robuustere en data-efficiëntere agents.

English

Large Language Model (LLM) agents show great promise for complex, multi-turn tool-use tasks, but their development is often hampered by the extreme scarcity of high-quality training data. Supervised fine-tuning (SFT) on synthetic data leads to overfitting, whereas standard reinforcement learning (RL) struggles with a critical cold-start problem and training instability. To address these challenges, we introduce Environment Tuning, a novel training paradigm that enables agents to learn complex behaviors directly from problem instances without relying on pre-collected expert trajectories. Environment Tuning orchestrates this learning process through a structured curriculum, actionable environment augmentation that provides corrective feedback, and fine-grained progress rewards to ensure stable and efficient exploration. Using only 400 problem instances from Berkeley Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves competitive in-distribution performance against strong baselines but also demonstrates superior out-of-distribution generalization, overcoming the performance collapse common to SFT-based approaches. Our work presents a paradigm shift from supervised fine-tuning on static trajectories to dynamic, environment-based exploration, paving the way for training more robust and data-efficient agents.

Niet alleen de agent finetunen, maar ook de omgeving afstemmen

Don't Just Fine-tune the Agent, Tune the Environment

Samenvatting

Support