Выявление барьеров языковых агентов в планировании
Revealing the Barriers of Language Agents in Planning
October 16, 2024
Авторы: Jian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao
cs.AI
Аннотация
Автономное планирование является постоянным streben с момента зарождения искусственного интеллекта. Основываясь на отобранных решателях проблем, ранние агенты планирования могли предоставлять точные решения для конкретных задач, но страдали от отсутствия обобщения. Появление больших языковых моделей (БЯМ) и их мощных способностей к рассуждению возродило интерес к автономному планированию путем автоматического генерирования разумных решений для заданных задач. Однако предыдущие исследования и наши эксперименты показывают, что текущим языковым агентам все еще не хватает планировочных способностей на уровне человека. Даже передовая модель рассуждения, OpenAI o1, достигает всего лишь 15,6% на одном из сложных планировочных бенчмарков реального мира. Это подчеркивает критический вопрос: Что мешает языковым агентам достичь планирования на уровне человека? Хотя существующие исследования выявили слабую производительность в планировании агента, более глубокие основные проблемы и механизмы и ограничения предложенных стратегий для их решения остаются недостаточно понятыми. В данной работе мы применяем исследование атрибуции признаков и выявляем два ключевых фактора, которые мешают планированию агента: ограниченная роль ограничений и уменьшающееся влияние вопросов. Мы также обнаруживаем, что хотя текущие стратегии помогают смягчить эти проблемы, они не полностью их решают, указывая на то, что агентам еще предстоит пройти долгий путь перед достижением уровня интеллекта человека.
English
Autonomous planning has been an ongoing pursuit since the inception of
artificial intelligence. Based on curated problem solvers, early planning
agents could deliver precise solutions for specific tasks but lacked
generalization. The emergence of large language models (LLMs) and their
powerful reasoning capabilities has reignited interest in autonomous planning
by automatically generating reasonable solutions for given tasks. However,
prior research and our experiments show that current language agents still lack
human-level planning abilities. Even the state-of-the-art reasoning model,
OpenAI o1, achieves only 15.6% on one of the complex real-world planning
benchmarks. This highlights a critical question: What hinders language agents
from achieving human-level planning? Although existing studies have highlighted
weak performance in agent planning, the deeper underlying issues and the
mechanisms and limitations of the strategies proposed to address them remain
insufficiently understood. In this work, we apply the feature attribution study
and identify two key factors that hinder agent planning: the limited role of
constraints and the diminishing influence of questions. We also find that
although current strategies help mitigate these challenges, they do not fully
resolve them, indicating that agents still have a long way to go before
reaching human-level intelligence.Summary
AI-Generated Summary