ATLaS: Ottimizzazione degli Agenti attraverso l'Apprendimento di Passaggi Critici
ATLaS: Agent Tuning via Learning Critical Steps
March 4, 2025
Autori: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) come agenti hanno dimostrato notevoli capacità di generalizzazione su compiti multi-dominio. Gli approcci esistenti per l'ottimizzazione degli agenti tipicamente impiegano un affinamento supervisionato su intere traiettorie di esperti. Tuttavia, la clonazione del comportamento di traiettorie complete può introdurre bias esperti e indebolire la generalizzazione a stati non coperti dai dati degli esperti. Inoltre, passaggi critici, come la pianificazione, il ragionamento complesso per sottocompiti intermedi e la decisione strategica, sono essenziali per il successo nei compiti degli agenti, quindi apprendere questi passaggi è la chiave per migliorare gli LLM come agenti. Per un'ottimizzazione degli agenti più efficace ed efficiente, proponiamo ATLaS, che identifica i passaggi critici nelle traiettorie degli esperti e affina gli LLM esclusivamente su questi passaggi con costi ridotti. Orientando il focus dell'addestramento su pochi passaggi critici, il nostro metodo mitiga il rischio di overfitting su intere traiettorie e promuove la generalizzazione attraverso diversi ambienti e compiti. In esperimenti estesi, un LLM affinato su solo il 30% dei passaggi critici selezionati da ATLaS supera l'LLM affinato su tutti i passaggi e recenti agenti LLM open-source. ATLaS mantiene e migliora le abilità di base degli LLM come agenti generalisti che interagiscono con ambienti diversi.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization
capabilities across multi-domain tasks. Existing agent tuning approaches
typically employ supervised finetuning on entire expert trajectories. However,
behavior-cloning of full trajectories can introduce expert bias and weaken
generalization to states not covered by the expert data. Additionally, critical
steps, such as planning, complex reasoning for intermediate subtasks, and
strategic decision-making, are essential to success in agent tasks, so learning
these steps is the key to improving LLM agents. For more effective and
efficient agent tuning, we propose ATLaS that identifies the critical steps in
expert trajectories and finetunes LLMs solely on these steps with reduced
costs. By steering the training's focus to a few critical steps, our method
mitigates the risk of overfitting entire trajectories and promotes
generalization across different environments and tasks. In extensive
experiments, an LLM finetuned on only 30% critical steps selected by ATLaS
outperforms the LLM finetuned on all steps and recent open-source LLM agents.
ATLaS maintains and improves base LLM skills as generalist agents interacting
with diverse environments.Summary
AI-Generated Summary