Не просто тонко настраивайте агента, настраивайте окружение.
Don't Just Fine-tune the Agent, Tune the Environment
October 11, 2025
Авторы: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM) демонстрируют значительный потенциал для выполнения сложных многошаговых задач с использованием инструментов, однако их разработка часто затрудняется крайней нехваткой высококачественных обучающих данных. Настройка с учителем (SFT) на синтетических данных приводит к переобучению, тогда как стандартное обучение с подкреплением (RL) сталкивается с критической проблемой "холодного старта" и нестабильностью обучения. Для решения этих проблем мы представляем Environment Tuning — новый подход к обучению, который позволяет агентам осваивать сложные поведения непосредственно на основе экземпляров задач, без использования заранее собранных экспертных траекторий. Environment Tuning организует процесс обучения через структурированный учебный план, модификацию среды, предоставляющую корректирующую обратную связь, и детализированные награды за прогресс, что обеспечивает стабильное и эффективное исследование. Используя всего 400 экземпляров задач из бенчмарка Berkeley Function-Calling Leaderboard (BFCL), наш метод не только достигает конкурентоспособных результатов на распределении данных, но и демонстрирует превосходную обобщающую способность на новых данных, преодолевая характерный для SFT-подходов сбой производительности. Наша работа представляет собой смену парадигмы: от настройки с учителем на статических траекториях к динамическому исследованию, основанному на взаимодействии со средой, прокладывая путь для обучения более устойчивых и эффективных в использовании данных агентов.
English
Large Language Model (LLM) agents show great promise for complex, multi-turn
tool-use tasks, but their development is often hampered by the extreme scarcity
of high-quality training data. Supervised fine-tuning (SFT) on synthetic data
leads to overfitting, whereas standard reinforcement learning (RL) struggles
with a critical cold-start problem and training instability. To address these
challenges, we introduce Environment Tuning, a novel training
paradigm that enables agents to learn complex behaviors directly from problem
instances without relying on pre-collected expert trajectories.
Environment Tuning orchestrates this learning process through a
structured curriculum, actionable environment augmentation that provides
corrective feedback, and fine-grained progress rewards to ensure stable and
efficient exploration. Using only 400 problem instances from Berkeley
Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves
competitive in-distribution performance against strong baselines but also
demonstrates superior out-of-distribution generalization, overcoming the
performance collapse common to SFT-based approaches. Our work presents a
paradigm shift from supervised fine-tuning on static trajectories to dynamic,
environment-based exploration, paving the way for training more robust and
data-efficient agents.