ChatPaper.aiChatPaper

Escalado de agentes autónomos mediante modelado automático de recompensas y planificación

Scaling Autonomous Agents via Automatic Reward Modeling And Planning

February 17, 2025
Autores: Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en una variedad de tareas de generación de texto. Sin embargo, los LLMs aún enfrentan dificultades con problemas que requieren toma de decisiones en múltiples pasos y retroalimentación del entorno, como compras en línea, razonamiento científico y resolución de problemas matemáticos. A diferencia de los datos de texto puro, recopilar datos a gran escala para la toma de decisiones es un desafío. Además, muchos LLMs potentes solo son accesibles a través de APIs, lo que dificulta su ajuste fino para tareas de agentes debido a los costos y la complejidad. Para abordar las limitaciones de los agentes basados en LLMs, proponemos un marco que puede aprender automáticamente un modelo de recompensa a partir del entorno sin necesidad de anotaciones humanas. Este modelo puede utilizarse para evaluar las trayectorias de acción de los agentes LLM y proporcionar heurísticas para la planificación de tareas. Específicamente, nuestro enfoque implica emplear un agente basado en LLM para navegar aleatoriamente en un entorno, generando trayectorias de acción diversas. Posteriormente, se utiliza un LLM separado para asignar una intención de tarea y sintetizar una respuesta negativa junto con la respuesta correcta para cada trayectoria. Estas tripletas (intención de tarea, respuesta positiva y respuesta negativa) se utilizan luego como datos de entrenamiento para optimizar un modelo de recompensa capaz de puntuar trayectorias de acción. La efectividad y generalización de nuestro marco se demuestran mediante evaluaciones realizadas en diferentes benchmarks de agentes. En conclusión, nuestro marco propuesto representa un avance significativo en la mejora de las capacidades de toma de decisiones de los agentes LLM. Al automatizar el aprendizaje de modelos de recompensa, superamos los desafíos de la escasez de datos y las limitaciones de las APIs, lo que podría revolucionar la aplicación de LLMs en entornos complejos e interactivos. Esta investigación abre el camino para agentes de IA más sofisticados capaces de abordar una amplia gama de problemas del mundo real que requieren toma de decisiones en múltiples pasos.
English
Large language models (LLMs) have demonstrated remarkable capabilities across a range of text-generation tasks. However, LLMs still struggle with problems requiring multi-step decision-making and environmental feedback, such as online shopping, scientific reasoning, and mathematical problem-solving. Unlike pure text data, collecting large-scale decision-making data is challenging. Moreover, many powerful LLMs are only accessible through APIs, which hinders their fine-tuning for agent tasks due to cost and complexity. To address LLM agents' limitations, we propose a framework that can automatically learn a reward model from the environment without human annotations. This model can be used to evaluate the action trajectories of LLM agents and provide heuristics for task planning. Specifically, our approach involves employing one LLM-based agent to navigate an environment randomly, generating diverse action trajectories. Subsequently, a separate LLM is leveraged to assign a task intent and synthesize a negative response alongside the correct response for each trajectory. These triplets (task intent, positive response, and negative response) are then utilized as training data to optimize a reward model capable of scoring action trajectories. The effectiveness and generalizability of our framework are demonstrated through evaluations conducted on different agent benchmarks. In conclusion, our proposed framework represents a significant advancement in enhancing LLM agents' decision-making capabilities. By automating the learning of reward models, we overcome the challenges of data scarcity and API limitations, potentially revolutionizing the application of LLMs in complex and interactive environments. This research paves the way for more sophisticated AI agents capable of tackling a wide range of real-world problems requiring multi-step decision-making.
PDF22February 19, 2025