ChatPaper.aiChatPaper

ReflAct: Принятие решений, основанных на реальном мире, в агентах с языковыми моделями через рефлексию целевых состояний

ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection

May 21, 2025
Авторы: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI

Аннотация

Последние достижения в области агентов на основе больших языковых моделей (LLM) во многом опираются на такие архитектуры рассуждений, как ReAct, которые чередуют мысли и действия в сложных средах. Однако ReAct часто генерирует необоснованные или несогласованные шаги рассуждений, что приводит к рассогласованию между фактическим состоянием агента и его целью. Наш анализ показывает, что это связано с неспособностью ReAct поддерживать согласованность внутренних убеждений и соответствие цели, что вызывает накопление ошибок и галлюцинации. Для решения этой проблемы мы представляем ReflAct — новую архитектуру, которая смещает фокус рассуждений с простого планирования следующих действий на постоянное осмысление состояния агента относительно его цели. Благодаря явному обоснованию решений на основе состояний и обеспечению постоянного соответствия цели, ReflAct значительно повышает стратегическую надежность. Этот подход демонстрирует существенные эмпирические преимущества: ReflAct превосходит ReAct в среднем на 27,7%, достигая 93,3% успешных выполнений в ALFWorld. Примечательно, что ReflAct даже превосходит ReAct с дополнительными улучшающими модулями (например, Reflexion, WKM), что подтверждает, что укрепление базовой архитектуры рассуждений является ключом к надежной работе агента.
English
Recent advances in LLM agents have largely built on reasoning backbones like ReAct, which interleave thought and action in complex environments. However, ReAct often produces ungrounded or incoherent reasoning steps, leading to misalignment between the agent's actual state and goal. Our analysis finds that this stems from ReAct's inability to maintain consistent internal beliefs and goal alignment, causing compounding errors and hallucinations. To address this, we introduce ReflAct, a novel backbone that shifts reasoning from merely planning next actions to continuously reflecting on the agent's state relative to its goal. By explicitly grounding decisions in states and enforcing ongoing goal alignment, ReflAct dramatically improves strategic reliability. This design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7% on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM), showing that strengthening the core reasoning backbone is key to reliable agent performance.

Summary

AI-Generated Summary

PDF52May 26, 2025