ChatPaper.aiChatPaper

Não Apenas Ajuste o Agente, Ajuste o Ambiente

Don't Just Fine-tune the Agent, Tune the Environment

October 11, 2025
Autores: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin
cs.AI

Resumo

Agentes de Modelos de Linguagem de Grande Escala (LLM) mostram grande potencial para tarefas complexas e de múltiplas etapas que envolvem o uso de ferramentas, mas seu desenvolvimento é frequentemente dificultado pela extrema escassez de dados de treinamento de alta qualidade. O ajuste fino supervisionado (SFT) em dados sintéticos leva ao sobreajuste, enquanto o aprendizado por reforço (RL) padrão enfrenta um problema crítico de "cold-start" e instabilidade no treinamento. Para abordar esses desafios, introduzimos o Ajuste de Ambiente, um novo paradigma de treinamento que permite que os agentes aprendam comportamentos complexos diretamente a partir de instâncias de problemas, sem depender de trajetórias especializadas pré-coletadas. O Ajuste de Ambiente orquestra esse processo de aprendizagem por meio de um currículo estruturado, uma ampliação do ambiente que fornece feedback corretivo e recompensas de progresso detalhadas para garantir uma exploração estável e eficiente. Utilizando apenas 400 instâncias de problemas do benchmark Berkeley Function-Calling Leaderboard (BFCL), nosso método não apenas alcança desempenho competitivo em distribuição contra linhas de base fortes, mas também demonstra generalização superior fora da distribuição, superando o colapso de desempenho comum em abordagens baseadas em SFT. Nosso trabalho representa uma mudança de paradigma, passando do ajuste fino supervisionado em trajetórias estáticas para uma exploração dinâmica baseada no ambiente, abrindo caminho para o treinamento de agentes mais robustos e eficientes em termos de dados.
English
Large Language Model (LLM) agents show great promise for complex, multi-turn tool-use tasks, but their development is often hampered by the extreme scarcity of high-quality training data. Supervised fine-tuning (SFT) on synthetic data leads to overfitting, whereas standard reinforcement learning (RL) struggles with a critical cold-start problem and training instability. To address these challenges, we introduce Environment Tuning, a novel training paradigm that enables agents to learn complex behaviors directly from problem instances without relying on pre-collected expert trajectories. Environment Tuning orchestrates this learning process through a structured curriculum, actionable environment augmentation that provides corrective feedback, and fine-grained progress rewards to ensure stable and efficient exploration. Using only 400 problem instances from Berkeley Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves competitive in-distribution performance against strong baselines but also demonstrates superior out-of-distribution generalization, overcoming the performance collapse common to SFT-based approaches. Our work presents a paradigm shift from supervised fine-tuning on static trajectories to dynamic, environment-based exploration, paving the way for training more robust and data-efficient agents.
PDF273October 14, 2025