ChatPaper.aiChatPaper

에이전트만 미세 조정하지 말고, 환경도 조정하라

Don't Just Fine-tune the Agent, Tune the Environment

October 11, 2025
저자: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin
cs.AI

초록

대형 언어 모델(LLM) 에이전트는 복잡하고 다중 턴의 도구 사용 작업에서 큰 잠재력을 보이지만, 고품질 학습 데이터의 극심한 부족으로 인해 개발이 어려운 경우가 많습니다. 합성 데이터에 대한 지도 미세 조정(SFT)은 과적합을 초래하는 반면, 표준 강화 학습(RL)은 중요한 콜드 스타트 문제와 학습 불안정성으로 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 환경 튜닝(Environment Tuning)이라는 새로운 학습 패러다임을 소개합니다. 이 방법은 에이전트가 사전 수집된 전문가 궤적에 의존하지 않고 문제 인스턴스로부터 직접 복잡한 행동을 학습할 수 있도록 합니다. 환경 튜닝은 구조화된 커리큘럼, 수정 피드백을 제공하는 실행 가능한 환경 증강, 그리고 안정적이고 효율적인 탐색을 보장하기 위한 세밀한 진행 보상을 통해 이 학습 과정을 조율합니다. Berkeley Function-Calling Leaderboard(BFCL) 벤치마크의 단 400개 문제 인스턴스만을 사용하여, 우리의 방법은 강력한 베이스라인 대비 경쟁력 있는 분포 내 성능을 달성할 뿐만 아니라, SFT 기반 접근법에서 흔히 발생하는 성능 저하를 극복하고 우수한 분포 외 일반화 능력을 보여줍니다. 우리의 연구는 정적 궤적에 대한 지도 미세 조정에서 동적 환경 기반 탐색으로의 패러다임 전환을 제시하며, 더 강력하고 데이터 효율적인 에이전트를 훈련하는 길을 열어줍니다.
English
Large Language Model (LLM) agents show great promise for complex, multi-turn tool-use tasks, but their development is often hampered by the extreme scarcity of high-quality training data. Supervised fine-tuning (SFT) on synthetic data leads to overfitting, whereas standard reinforcement learning (RL) struggles with a critical cold-start problem and training instability. To address these challenges, we introduce Environment Tuning, a novel training paradigm that enables agents to learn complex behaviors directly from problem instances without relying on pre-collected expert trajectories. Environment Tuning orchestrates this learning process through a structured curriculum, actionable environment augmentation that provides corrective feedback, and fine-grained progress rewards to ensure stable and efficient exploration. Using only 400 problem instances from Berkeley Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves competitive in-distribution performance against strong baselines but also demonstrates superior out-of-distribution generalization, overcoming the performance collapse common to SFT-based approaches. Our work presents a paradigm shift from supervised fine-tuning on static trajectories to dynamic, environment-based exploration, paving the way for training more robust and data-efficient agents.
PDF273October 14, 2025