ChatPaper.aiChatPaper

Non Limitarti a Ottimizzare l'Agente, Ottimizza l'Ambiente

Don't Just Fine-tune the Agent, Tune the Environment

October 11, 2025
Autori: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) mostrano un grande potenziale per compiti complessi e multi-turn che richiedono l'uso di strumenti, ma il loro sviluppo è spesso ostacolato dalla estrema scarsità di dati di addestramento di alta qualità. Il fine-tuning supervisionato (SFT) su dati sintetici porta a un overfitting, mentre il reinforcement learning (RL) standard fatica a superare un critico problema di cold-start e instabilità durante l'addestramento. Per affrontare queste sfide, introduciamo l'Environment Tuning, un nuovo paradigma di addestramento che consente agli agenti di apprendere comportamenti complessi direttamente dalle istanze del problema senza fare affidamento su traiettorie esperti pre-raccolte. L'Environment Tuning orchestra questo processo di apprendimento attraverso un curriculum strutturato, un'aumentazione dell'ambiente che fornisce feedback correttivo e ricompense di progresso granulari per garantire un'esplorazione stabile ed efficiente. Utilizzando solo 400 istanze del problema dal benchmark Berkeley Function-Calling Leaderboard (BFCL), il nostro metodo non solo raggiunge prestazioni competitive in-distribuzione rispetto a baseline solide, ma dimostra anche una generalizzazione superiore out-of-distribuzione, superando il collasso delle prestazioni comune agli approcci basati su SFT. Il nostro lavoro rappresenta un cambio di paradigma dal fine-tuning supervisionato su traiettorie statiche a un'esplorazione dinamica basata sull'ambiente, aprendo la strada all'addestramento di agenti più robusti ed efficienti dal punto di vista dei dati.
English
Large Language Model (LLM) agents show great promise for complex, multi-turn tool-use tasks, but their development is often hampered by the extreme scarcity of high-quality training data. Supervised fine-tuning (SFT) on synthetic data leads to overfitting, whereas standard reinforcement learning (RL) struggles with a critical cold-start problem and training instability. To address these challenges, we introduce Environment Tuning, a novel training paradigm that enables agents to learn complex behaviors directly from problem instances without relying on pre-collected expert trajectories. Environment Tuning orchestrates this learning process through a structured curriculum, actionable environment augmentation that provides corrective feedback, and fine-grained progress rewards to ensure stable and efficient exploration. Using only 400 problem instances from Berkeley Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves competitive in-distribution performance against strong baselines but also demonstrates superior out-of-distribution generalization, overcoming the performance collapse common to SFT-based approaches. Our work presents a paradigm shift from supervised fine-tuning on static trajectories to dynamic, environment-based exploration, paving the way for training more robust and data-efficient agents.
PDF273October 14, 2025