ChatPaper.aiChatPaper

Aufzeigen der Barrieren von Sprachagenten in der Planung

Revealing the Barriers of Language Agents in Planning

October 16, 2024
Autoren: Jian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao
cs.AI

Zusammenfassung

Autonomes Planen ist eine fortlaufende Bestrebung seit der Entstehung der künstlichen Intelligenz. Basierend auf kuratierten Problemlösern konnten frühe Planungsagenten präzise Lösungen für spezifische Aufgaben liefern, jedoch fehlte es an Verallgemeinerung. Das Aufkommen großer Sprachmodelle (LLMs) und ihrer leistungsstarken Schlussfolgerungsfähigkeiten hat das Interesse am autonomen Planen wieder entfacht, indem sie automatisch plausible Lösungen für gegebene Aufgaben generieren. Dennoch zeigen frühere Forschungen und unsere Experimente, dass aktuelle Sprachagenten immer noch nicht über Planungsfähigkeiten auf menschlichem Niveau verfügen. Selbst das modernste Schlussfolgerungsmodell, OpenAI o1, erreicht nur 15,6% in einem der komplexen Planungs-Benchmarktests in der realen Welt. Dies wirft eine entscheidende Frage auf: Was hindert Sprachagenten daran, menschenähnliche Planung zu erreichen? Obwohl bestehende Studien eine schwache Leistung bei der Agentenplanung aufgezeigt haben, bleiben die tieferliegenden Probleme sowie die Mechanismen und Grenzen der vorgeschlagenen Strategien zu ihrer Bewältigung unzureichend verstanden. In dieser Arbeit wenden wir die Merkmalsattributionsstudie an und identifizieren zwei Schlüsselfaktoren, die die Agentenplanung behindern: die begrenzte Rolle von Einschränkungen und der abnehmende Einfluss von Fragen. Wir stellen auch fest, dass aktuelle Strategien zwar dazu beitragen, diese Herausforderungen zu mildern, sie jedoch nicht vollständig lösen, was darauf hindeutet, dass Agenten noch einen langen Weg vor sich haben, bevor sie menschenähnliche Intelligenz erreichen.
English
Autonomous planning has been an ongoing pursuit since the inception of artificial intelligence. Based on curated problem solvers, early planning agents could deliver precise solutions for specific tasks but lacked generalization. The emergence of large language models (LLMs) and their powerful reasoning capabilities has reignited interest in autonomous planning by automatically generating reasonable solutions for given tasks. However, prior research and our experiments show that current language agents still lack human-level planning abilities. Even the state-of-the-art reasoning model, OpenAI o1, achieves only 15.6% on one of the complex real-world planning benchmarks. This highlights a critical question: What hinders language agents from achieving human-level planning? Although existing studies have highlighted weak performance in agent planning, the deeper underlying issues and the mechanisms and limitations of the strategies proposed to address them remain insufficiently understood. In this work, we apply the feature attribution study and identify two key factors that hinder agent planning: the limited role of constraints and the diminishing influence of questions. We also find that although current strategies help mitigate these challenges, they do not fully resolve them, indicating that agents still have a long way to go before reaching human-level intelligence.

Summary

AI-Generated Summary

PDF282November 16, 2024