ATLaS: Ajuste de Agentes mediante el Aprendizaje de Pasos Críticos
ATLaS: Agent Tuning via Learning Critical Steps
March 4, 2025
Autores: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI
Resumen
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado capacidades de generalización notables en tareas de múltiples dominios. Los enfoques existentes de ajuste de agentes suelen emplear ajuste fino supervisado en trayectorias completas de expertos. Sin embargo, la clonación de comportamiento de trayectorias completas puede introducir sesgos expertos y debilitar la generalización a estados no cubiertos por los datos expertos. Además, pasos críticos, como la planificación, el razonamiento complejo para subtareas intermedias y la toma de decisiones estratégicas, son esenciales para el éxito en tareas de agentes, por lo que aprender estos pasos es clave para mejorar los agentes LLM. Para un ajuste de agentes más efectivo y eficiente, proponemos ATLaS, que identifica los pasos críticos en las trayectorias expertas y ajusta finamente los LLM únicamente en estos pasos con costos reducidos. Al dirigir el enfoque del entrenamiento a unos pocos pasos críticos, nuestro método mitiga el riesgo de sobreajuste de trayectorias completas y promueve la generalización en diferentes entornos y tareas. En experimentos extensos, un LLM ajustado finamente en solo el 30% de los pasos críticos seleccionados por ATLaS supera al LLM ajustado en todos los pasos y a los agentes LLM de código abierto recientes. ATLaS mantiene y mejora las habilidades base de los LLM como agentes generalistas que interactúan con entornos diversos.
English
Large Language Model (LLM) agents have demonstrated remarkable generalization
capabilities across multi-domain tasks. Existing agent tuning approaches
typically employ supervised finetuning on entire expert trajectories. However,
behavior-cloning of full trajectories can introduce expert bias and weaken
generalization to states not covered by the expert data. Additionally, critical
steps, such as planning, complex reasoning for intermediate subtasks, and
strategic decision-making, are essential to success in agent tasks, so learning
these steps is the key to improving LLM agents. For more effective and
efficient agent tuning, we propose ATLaS that identifies the critical steps in
expert trajectories and finetunes LLMs solely on these steps with reduced
costs. By steering the training's focus to a few critical steps, our method
mitigates the risk of overfitting entire trajectories and promotes
generalization across different environments and tasks. In extensive
experiments, an LLM finetuned on only 30% critical steps selected by ATLaS
outperforms the LLM finetuned on all steps and recent open-source LLM agents.
ATLaS maintains and improves base LLM skills as generalist agents interacting
with diverse environments.Summary
AI-Generated Summary