Не просто тонко настраивайте агента, настраивайте окружение.

Аннотация

Агенты на основе больших языковых моделей (LLM) демонстрируют значительный потенциал для выполнения сложных многошаговых задач с использованием инструментов, однако их разработка часто затрудняется крайней нехваткой высококачественных обучающих данных. Настройка с учителем (SFT) на синтетических данных приводит к переобучению, тогда как стандартное обучение с подкреплением (RL) сталкивается с критической проблемой "холодного старта" и нестабильностью обучения. Для решения этих проблем мы представляем Environment Tuning — новый подход к обучению, который позволяет агентам осваивать сложные поведения непосредственно на основе экземпляров задач, без использования заранее собранных экспертных траекторий. Environment Tuning организует процесс обучения через структурированный учебный план, модификацию среды, предоставляющую корректирующую обратную связь, и детализированные награды за прогресс, что обеспечивает стабильное и эффективное исследование. Используя всего 400 экземпляров задач из бенчмарка Berkeley Function-Calling Leaderboard (BFCL), наш метод не только достигает конкурентоспособных результатов на распределении данных, но и демонстрирует превосходную обобщающую способность на новых данных, преодолевая характерный для SFT-подходов сбой производительности. Наша работа представляет собой смену парадигмы: от настройки с учителем на статических траекториях к динамическому исследованию, основанному на взаимодействии со средой, прокладывая путь для обучения более устойчивых и эффективных в использовании данных агентов.

English

Large Language Model (LLM) agents show great promise for complex, multi-turn tool-use tasks, but their development is often hampered by the extreme scarcity of high-quality training data. Supervised fine-tuning (SFT) on synthetic data leads to overfitting, whereas standard reinforcement learning (RL) struggles with a critical cold-start problem and training instability. To address these challenges, we introduce Environment Tuning, a novel training paradigm that enables agents to learn complex behaviors directly from problem instances without relying on pre-collected expert trajectories. Environment Tuning orchestrates this learning process through a structured curriculum, actionable environment augmentation that provides corrective feedback, and fine-grained progress rewards to ensure stable and efficient exploration. Using only 400 problem instances from Berkeley Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves competitive in-distribution performance against strong baselines but also demonstrates superior out-of-distribution generalization, overcoming the performance collapse common to SFT-based approaches. Our work presents a paradigm shift from supervised fine-tuning on static trajectories to dynamic, environment-based exploration, paving the way for training more robust and data-efficient agents.

Не просто тонко настраивайте агента, настраивайте окружение.

Don't Just Fine-tune the Agent, Tune the Environment

Аннотация

Support