ChatPaper.aiChatPaper

ATLaS: Agentenoptimierung durch Erlernen kritischer Schritte

ATLaS: Agent Tuning via Learning Critical Steps

March 4, 2025
papers.authors: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI

papers.abstract

Große Sprachmodell-Agenten (LLM-Agenten) haben bemerkenswerte Generalisierungsfähigkeiten über Multi-Domain-Aufgaben hinweg gezeigt. Bestehende Ansätze zur Feinabstimmung von Agenten verwenden typischerweise überwachtes Feinabstimmen auf gesamten Experten-Trajektorien. Allerdings kann das Verhaltensklonen vollständiger Trajektorien Expertenbias einführen und die Generalisierung auf Zustände, die nicht durch die Experten-Daten abgedeckt sind, schwächen. Darüber hinaus sind kritische Schritte wie Planung, komplexe Schlussfolgerungen für Zwischenunteraufgaben und strategische Entscheidungsfindung entscheidend für den Erfolg von Agenten-Aufgaben, sodass das Erlernen dieser Schritte der Schlüssel zur Verbesserung von LLM-Agenten ist. Für eine effektivere und effizientere Feinabstimmung von Agenten schlagen wir ATLaS vor, das die kritischen Schritte in Experten-Trajektorien identifiziert und LLMs ausschließlich auf diesen Schritten mit reduzierten Kosten feinabstimmt. Indem wir den Fokus des Trainings auf einige kritische Schritte lenken, verringert unsere Methode das Risiko einer Überanpassung an gesamte Trajektorien und fördert die Generalisierung über verschiedene Umgebungen und Aufgaben hinweg. In umfangreichen Experimenten übertrifft ein LLM, das auf nur 30 % der von ATLaS ausgewählten kritischen Schritte feinabgestimmt wurde, den LLM, der auf allen Schritten feinabgestimmt wurde, sowie aktuelle Open-Source-LLM-Agenten. ATLaS bewahrt und verbessert die Basisfähigkeiten des LLM als Generalisten-Agenten, die mit verschiedenen Umgebungen interagieren.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization capabilities across multi-domain tasks. Existing agent tuning approaches typically employ supervised finetuning on entire expert trajectories. However, behavior-cloning of full trajectories can introduce expert bias and weaken generalization to states not covered by the expert data. Additionally, critical steps, such as planning, complex reasoning for intermediate subtasks, and strategic decision-making, are essential to success in agent tasks, so learning these steps is the key to improving LLM agents. For more effective and efficient agent tuning, we propose ATLaS that identifies the critical steps in expert trajectories and finetunes LLMs solely on these steps with reduced costs. By steering the training's focus to a few critical steps, our method mitigates the risk of overfitting entire trajectories and promotes generalization across different environments and tasks. In extensive experiments, an LLM finetuned on only 30% critical steps selected by ATLaS outperforms the LLM finetuned on all steps and recent open-source LLM agents. ATLaS maintains and improves base LLM skills as generalist agents interacting with diverse environments.
PDF93March 5, 2025