ChatPaper.aiChatPaper

Nicht nur den Agenten feinabstimmen, sondern auch die Umgebung anpassen.

Don't Just Fine-tune the Agent, Tune the Environment

October 11, 2025
papers.authors: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin
cs.AI

papers.abstract

Large Language Model (LLM)-Agenten zeigen großes Potenzial für komplexe, mehrstufige Aufgaben, die den Einsatz von Werkzeugen erfordern, doch ihre Entwicklung wird oft durch den extremen Mangel an hochwertigen Trainingsdaten behindert. Supervised Fine-Tuning (SFT) auf synthetischen Daten führt zu Überanpassung, während Standard-Reinforcement-Learning (RL) mit einem kritischen Cold-Start-Problem und Trainingsinstabilität kämpft. Um diese Herausforderungen zu bewältigen, führen wir Environment Tuning ein, ein neuartiges Trainingsparadigma, das es Agenten ermöglicht, komplexe Verhaltensweisen direkt aus Problemstellungen zu erlernen, ohne auf vorab gesammelte Expertentrajektorien angewiesen zu sein. Environment Tuning orchestriert diesen Lernprozess durch einen strukturierten Lehrplan, umsetzbare Umgebungsanpassungen, die korrigierendes Feedback liefern, und fein abgestufte Fortschrittsbelohnungen, um eine stabile und effiziente Exploration zu gewährleisten. Mit nur 400 Problemstellungen aus dem Berkeley Function-Calling Leaderboard (BFCL)-Benchmark erreicht unsere Methode nicht nur eine wettbewerbsfähige In-Distribution-Leistung im Vergleich zu starken Baselines, sondern zeigt auch eine überlegene Out-of-Distribution-Generalisierung, wodurch der bei SFT-basierten Ansätzen häufig auftretende Leistungseinbruch überwunden wird. Unsere Arbeit stellt einen Paradigmenwechsel vom Supervised Fine-Tuning auf statischen Trajektorien hin zu einer dynamischen, umgebungsbasierten Exploration dar und ebnet den Weg für die Ausbildung robusterer und dateneffizienterer Agenten.
English
Large Language Model (LLM) agents show great promise for complex, multi-turn tool-use tasks, but their development is often hampered by the extreme scarcity of high-quality training data. Supervised fine-tuning (SFT) on synthetic data leads to overfitting, whereas standard reinforcement learning (RL) struggles with a critical cold-start problem and training instability. To address these challenges, we introduce Environment Tuning, a novel training paradigm that enables agents to learn complex behaviors directly from problem instances without relying on pre-collected expert trajectories. Environment Tuning orchestrates this learning process through a structured curriculum, actionable environment augmentation that provides corrective feedback, and fine-grained progress rewards to ensure stable and efficient exploration. Using only 400 problem instances from Berkeley Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves competitive in-distribution performance against strong baselines but also demonstrates superior out-of-distribution generalization, overcoming the performance collapse common to SFT-based approaches. Our work presents a paradigm shift from supervised fine-tuning on static trajectories to dynamic, environment-based exploration, paving the way for training more robust and data-efficient agents.
PDF273October 14, 2025