ChatPaper.aiChatPaper

Revelando las Barreras de los Agentes de Lenguaje en la Planificación

Revealing the Barriers of Language Agents in Planning

October 16, 2024
Autores: Jian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao
cs.AI

Resumen

La planificación autónoma ha sido una búsqueda constante desde los inicios de la inteligencia artificial. Basados en solucionadores de problemas curados, los primeros agentes de planificación podían ofrecer soluciones precisas para tareas específicas pero carecían de generalización. La aparición de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) y sus potentes capacidades de razonamiento ha reavivado el interés en la planificación autónoma al generar automáticamente soluciones razonables para tareas dadas. Sin embargo, investigaciones previas y nuestros experimentos muestran que los actuales agentes de lenguaje aún carecen de habilidades de planificación a nivel humano. Incluso el modelo de razonamiento de vanguardia, OpenAI o1, solo alcanza un 15.6% en uno de los complejos puntos de referencia de planificación del mundo real. Esto destaca una pregunta crítica: ¿Qué impide a los agentes de lenguaje alcanzar la planificación a nivel humano? Aunque estudios existentes han resaltado un bajo rendimiento en la planificación de agentes, los problemas subyacentes más profundos y los mecanismos y limitaciones de las estrategias propuestas para abordarlos siguen siendo insuficientemente comprendidos. En este trabajo, aplicamos el estudio de atribución de características e identificamos dos factores clave que obstaculizan la planificación de agentes: el papel limitado de las restricciones y la influencia decreciente de las preguntas. También encontramos que aunque las estrategias actuales ayudan a mitigar estos desafíos, no los resuelven completamente, lo que indica que los agentes aún tienen un largo camino por recorrer antes de alcanzar la inteligencia a nivel humano.
English
Autonomous planning has been an ongoing pursuit since the inception of artificial intelligence. Based on curated problem solvers, early planning agents could deliver precise solutions for specific tasks but lacked generalization. The emergence of large language models (LLMs) and their powerful reasoning capabilities has reignited interest in autonomous planning by automatically generating reasonable solutions for given tasks. However, prior research and our experiments show that current language agents still lack human-level planning abilities. Even the state-of-the-art reasoning model, OpenAI o1, achieves only 15.6% on one of the complex real-world planning benchmarks. This highlights a critical question: What hinders language agents from achieving human-level planning? Although existing studies have highlighted weak performance in agent planning, the deeper underlying issues and the mechanisms and limitations of the strategies proposed to address them remain insufficiently understood. In this work, we apply the feature attribution study and identify two key factors that hinder agent planning: the limited role of constraints and the diminishing influence of questions. We also find that although current strategies help mitigate these challenges, they do not fully resolve them, indicating that agents still have a long way to go before reaching human-level intelligence.

Summary

AI-Generated Summary

PDF282November 16, 2024