ATLaS : Réglage d'Agent par Apprentissage des Étapes Critiques
ATLaS: Agent Tuning via Learning Critical Steps
March 4, 2025
Auteurs: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI
Résumé
Les agents basés sur des modèles de langage de grande taille (LLM) ont démontré des capacités de généralisation remarquables pour des tâches multi-domaines. Les approches existantes de réglage des agents utilisent généralement un ajustement supervisé sur l'intégralité des trajectoires expertes. Cependant, le clonage comportemental de trajectoires complètes peut introduire un biais expert et affaiblir la généralisation à des états non couverts par les données expertes. De plus, des étapes critiques, telles que la planification, le raisonnement complexe pour les sous-tâches intermédiaires et la prise de décision stratégique, sont essentielles à la réussite des tâches des agents. Apprendre ces étapes est donc la clé pour améliorer les agents LLM. Pour un réglage des agents plus efficace et efficient, nous proposons ATLaS, qui identifie les étapes critiques dans les trajectoires expertes et ajuste les LLM uniquement sur ces étapes, réduisant ainsi les coûts. En orientant l'attention de l'entraînement sur quelques étapes critiques, notre méthode atténue le risque de surajustement des trajectoires entières et favorise la généralisation à travers différents environnements et tâches. Dans des expériences approfondies, un LLM ajusté sur seulement 30 % des étapes critiques sélectionnées par ATLaS surpasse le LLM ajusté sur toutes les étapes ainsi que les récents agents LLM open-source. ATLaS maintient et améliore les compétences de base des LLM en tant qu'agents généralistes interagissant avec des environnements diversifiés.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization
capabilities across multi-domain tasks. Existing agent tuning approaches
typically employ supervised finetuning on entire expert trajectories. However,
behavior-cloning of full trajectories can introduce expert bias and weaken
generalization to states not covered by the expert data. Additionally, critical
steps, such as planning, complex reasoning for intermediate subtasks, and
strategic decision-making, are essential to success in agent tasks, so learning
these steps is the key to improving LLM agents. For more effective and
efficient agent tuning, we propose ATLaS that identifies the critical steps in
expert trajectories and finetunes LLMs solely on these steps with reduced
costs. By steering the training's focus to a few critical steps, our method
mitigates the risk of overfitting entire trajectories and promotes
generalization across different environments and tasks. In extensive
experiments, an LLM finetuned on only 30% critical steps selected by ATLaS
outperforms the LLM finetuned on all steps and recent open-source LLM agents.
ATLaS maintains and improves base LLM skills as generalist agents interacting
with diverse environments.Summary
AI-Generated Summary