ChatPaper.aiChatPaper

ATLaS: 중요한 단계 학습을 통한 에이전트 튜닝

ATLaS: Agent Tuning via Learning Critical Steps

March 4, 2025
저자: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI

초록

대규모 언어 모델(LLM) 에이전트는 다중 도메인 작업에서 뛰어난 일반화 능력을 보여주고 있습니다. 기존의 에이전트 튜닝 접근법은 일반적으로 전문가의 전체 행동 궤적에 대해 지도 학습을 통해 미세 조정을 수행합니다. 그러나 전체 궤적을 그대로 복제하는 행동 복제 방식은 전문가의 편향을 도입하고, 전문가 데이터가 다루지 않은 상태에 대한 일반화 능력을 약화시킬 수 있습니다. 또한, 계획 수립, 중간 하위 작업에 대한 복잡한 추론, 전략적 의사결정과 같은 중요한 단계들은 에이전트 작업의 성공에 필수적이므로, 이러한 단계를 학습하는 것이 LLM 에이전트의 성능을 향상시키는 핵심입니다. 더 효과적이고 효율적인 에이전트 튜닝을 위해, 우리는 전문가 궤적에서 중요한 단계를 식별하고 이 단계들만을 대상으로 LLM을 저비용으로 미세 조정하는 ATLaS를 제안합니다. 훈련의 초점을 몇 가지 중요한 단계에 맞춤으로써, 우리의 방법은 전체 궤적에 대한 과적합 위험을 완화하고 다양한 환경과 작업에 걸친 일반화를 촉진합니다. 광범위한 실험에서, ATLaS가 선택한 30%의 중요 단계만으로 미세 조정된 LLM은 모든 단계로 미세 조정된 LLM과 최근의 오픈소스 LLM 에이전트들을 능가하는 성능을 보였습니다. ATLaS는 다양한 환경과 상호작용하는 일반적인 에이전트로서 기본 LLM의 능력을 유지하고 향상시킵니다.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization capabilities across multi-domain tasks. Existing agent tuning approaches typically employ supervised finetuning on entire expert trajectories. However, behavior-cloning of full trajectories can introduce expert bias and weaken generalization to states not covered by the expert data. Additionally, critical steps, such as planning, complex reasoning for intermediate subtasks, and strategic decision-making, are essential to success in agent tasks, so learning these steps is the key to improving LLM agents. For more effective and efficient agent tuning, we propose ATLaS that identifies the critical steps in expert trajectories and finetunes LLMs solely on these steps with reduced costs. By steering the training's focus to a few critical steps, our method mitigates the risk of overfitting entire trajectories and promotes generalization across different environments and tasks. In extensive experiments, an LLM finetuned on only 30% critical steps selected by ATLaS outperforms the LLM finetuned on all steps and recent open-source LLM agents. ATLaS maintains and improves base LLM skills as generalist agents interacting with diverse environments.

Summary

AI-Generated Summary

PDF83March 5, 2025