ATLaS: Agentafstemming via het leren van kritieke stappen
ATLaS: Agent Tuning via Learning Critical Steps
March 4, 2025
Auteurs: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI
Samenvatting
Large Language Model (LLM)-agenten hebben opmerkelijke generalisatiecapaciteiten getoond bij taken in meerdere domeinen. Bestaande benaderingen voor het afstemmen van agenten maken doorgaans gebruik van supervised finetuning op volledige expert-trajecten. Het klonen van volledige trajecten kan echter expertbias introduceren en de generalisatie naar toestanden die niet door de expertdata worden gedekt, verzwakken. Daarnaast zijn kritieke stappen, zoals planning, complex redeneren voor tussenliggende subtaken en strategische besluitvorming, essentieel voor succes in agenttaken, waardoor het leren van deze stappen de sleutel is tot het verbeteren van LLM-agenten. Voor een effectievere en efficiëntere afstemming van agenten stellen we ATLaS voor, dat de kritieke stappen in expert-trajecten identificeert en LLM's uitsluitend op deze stappen finetunt tegen lagere kosten. Door de focus van de training te richten op een paar kritieke stappen, vermindert onze methode het risico van overfitting op volledige trajecten en bevordert het generalisatie over verschillende omgevingen en taken. In uitgebreide experimenten presteert een LLM die is gefinetuned op slechts 30% van de kritieke stappen die door ATLaS zijn geselecteerd, beter dan de LLM die is gefinetuned op alle stappen en recente open-source LLM-agenten. ATLaS behoudt en verbetert de basisvaardigheden van LLM's als generalistische agenten die interacteren met diverse omgevingen.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization
capabilities across multi-domain tasks. Existing agent tuning approaches
typically employ supervised finetuning on entire expert trajectories. However,
behavior-cloning of full trajectories can introduce expert bias and weaken
generalization to states not covered by the expert data. Additionally, critical
steps, such as planning, complex reasoning for intermediate subtasks, and
strategic decision-making, are essential to success in agent tasks, so learning
these steps is the key to improving LLM agents. For more effective and
efficient agent tuning, we propose ATLaS that identifies the critical steps in
expert trajectories and finetunes LLMs solely on these steps with reduced
costs. By steering the training's focus to a few critical steps, our method
mitigates the risk of overfitting entire trajectories and promotes
generalization across different environments and tasks. In extensive
experiments, an LLM finetuned on only 30% critical steps selected by ATLaS
outperforms the LLM finetuned on all steps and recent open-source LLM agents.
ATLaS maintains and improves base LLM skills as generalist agents interacting
with diverse environments.