ATLaS: Ajuste de Agentes por meio da Aprendizagem de Passos Críticos
ATLaS: Agent Tuning via Learning Critical Steps
March 4, 2025
Autores: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI
Resumo
Agentes de Modelos de Linguagem de Grande Escala (LLM) têm demonstrado capacidades notáveis de generalização em tarefas de múltiplos domínios. As abordagens existentes de ajuste fino de agentes geralmente empregam ajuste supervisionado em trajetórias completas de especialistas. No entanto, a clonagem de comportamento de trajetórias inteiras pode introduzir viés de especialista e enfraquecer a generalização para estados não cobertos pelos dados do especialista. Além disso, etapas críticas, como planejamento, raciocínio complexo para subtarefas intermediárias e tomada de decisão estratégica, são essenciais para o sucesso em tarefas de agentes, portanto, aprender essas etapas é a chave para melhorar os agentes LLM. Para um ajuste de agente mais eficaz e eficiente, propomos o ATLaS, que identifica as etapas críticas nas trajetórias de especialistas e ajusta os LLMs apenas nessas etapas, com custos reduzidos. Ao direcionar o foco do treinamento para algumas etapas críticas, nosso método mitiga o risco de sobreajuste em trajetórias inteiras e promove a generalização em diferentes ambientes e tarefas. Em experimentos extensivos, um LLM ajustado em apenas 30% das etapas críticas selecionadas pelo ATLaS supera o LLM ajustado em todas as etapas e os recentes agentes LLM de código aberto. O ATLaS mantém e melhora as habilidades básicas do LLM como agentes generalistas que interagem com diversos ambientes.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization
capabilities across multi-domain tasks. Existing agent tuning approaches
typically employ supervised finetuning on entire expert trajectories. However,
behavior-cloning of full trajectories can introduce expert bias and weaken
generalization to states not covered by the expert data. Additionally, critical
steps, such as planning, complex reasoning for intermediate subtasks, and
strategic decision-making, are essential to success in agent tasks, so learning
these steps is the key to improving LLM agents. For more effective and
efficient agent tuning, we propose ATLaS that identifies the critical steps in
expert trajectories and finetunes LLMs solely on these steps with reduced
costs. By steering the training's focus to a few critical steps, our method
mitigates the risk of overfitting entire trajectories and promotes
generalization across different environments and tasks. In extensive
experiments, an LLM finetuned on only 30% critical steps selected by ATLaS
outperforms the LLM finetuned on all steps and recent open-source LLM agents.
ATLaS maintains and improves base LLM skills as generalist agents interacting
with diverse environments.Summary
AI-Generated Summary