Aufzeigen der Barrieren von Sprachagenten in der Planung
Revealing the Barriers of Language Agents in Planning
October 16, 2024
Autoren: Jian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao
cs.AI
Zusammenfassung
Autonomes Planen ist eine fortlaufende Bestrebung seit der Entstehung der künstlichen Intelligenz. Basierend auf kuratierten Problemlösern konnten frühe Planungsagenten präzise Lösungen für spezifische Aufgaben liefern, jedoch fehlte es an Verallgemeinerung. Das Aufkommen großer Sprachmodelle (LLMs) und ihrer leistungsstarken Schlussfolgerungsfähigkeiten hat das Interesse am autonomen Planen wieder entfacht, indem sie automatisch plausible Lösungen für gegebene Aufgaben generieren. Dennoch zeigen frühere Forschungen und unsere Experimente, dass aktuelle Sprachagenten immer noch nicht über Planungsfähigkeiten auf menschlichem Niveau verfügen. Selbst das modernste Schlussfolgerungsmodell, OpenAI o1, erreicht nur 15,6% in einem der komplexen Planungs-Benchmarktests in der realen Welt. Dies wirft eine entscheidende Frage auf: Was hindert Sprachagenten daran, menschenähnliche Planung zu erreichen? Obwohl bestehende Studien eine schwache Leistung bei der Agentenplanung aufgezeigt haben, bleiben die tieferliegenden Probleme sowie die Mechanismen und Grenzen der vorgeschlagenen Strategien zu ihrer Bewältigung unzureichend verstanden. In dieser Arbeit wenden wir die Merkmalsattributionsstudie an und identifizieren zwei Schlüsselfaktoren, die die Agentenplanung behindern: die begrenzte Rolle von Einschränkungen und der abnehmende Einfluss von Fragen. Wir stellen auch fest, dass aktuelle Strategien zwar dazu beitragen, diese Herausforderungen zu mildern, sie jedoch nicht vollständig lösen, was darauf hindeutet, dass Agenten noch einen langen Weg vor sich haben, bevor sie menschenähnliche Intelligenz erreichen.
English
Autonomous planning has been an ongoing pursuit since the inception of
artificial intelligence. Based on curated problem solvers, early planning
agents could deliver precise solutions for specific tasks but lacked
generalization. The emergence of large language models (LLMs) and their
powerful reasoning capabilities has reignited interest in autonomous planning
by automatically generating reasonable solutions for given tasks. However,
prior research and our experiments show that current language agents still lack
human-level planning abilities. Even the state-of-the-art reasoning model,
OpenAI o1, achieves only 15.6% on one of the complex real-world planning
benchmarks. This highlights a critical question: What hinders language agents
from achieving human-level planning? Although existing studies have highlighted
weak performance in agent planning, the deeper underlying issues and the
mechanisms and limitations of the strategies proposed to address them remain
insufficiently understood. In this work, we apply the feature attribution study
and identify two key factors that hinder agent planning: the limited role of
constraints and the diminishing influence of questions. We also find that
although current strategies help mitigate these challenges, they do not fully
resolve them, indicating that agents still have a long way to go before
reaching human-level intelligence.Summary
AI-Generated Summary