ReflAct: 目標状態のリフレクションによるLLMエージェントの現実世界に根ざした意思決定
ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
May 21, 2025
著者: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI
要旨
最近のLLMエージェントの進歩は、複雑な環境で思考と行動を交互に行うReActのような推論基盤に大きく依存しています。しかし、ReActはしばしば根拠のないまたは一貫性のない推論ステップを生成し、エージェントの実際の状態と目標との間にミスアライメントを引き起こします。私たちの分析によると、これはReActが一貫した内部信念と目標の整合性を維持できないためであり、エラーと幻覚が累積する原因となっています。この問題を解決するために、私たちはReflActを導入します。これは、次の行動を計画するだけでなく、エージェントの状態を目標に対して継続的に反映する新しい推論基盤です。決定を状態に明示的に基づかせ、継続的な目標の整合性を強化することで、ReflActは戦略的信頼性を大幅に向上させます。この設計により、実証的な大幅な向上がもたらされました:ReflActはReActを平均27.7%上回り、ALFWorldでの成功率は93.3%に達しました。特に、ReflActは追加の拡張モジュール(例:Reflexion、WKM)を備えたReActをも上回り、信頼性の高いエージェント性能の鍵はコアの推論基盤を強化することにあることが示されました。
English
Recent advances in LLM agents have largely built on reasoning backbones like
ReAct, which interleave thought and action in complex environments. However,
ReAct often produces ungrounded or incoherent reasoning steps, leading to
misalignment between the agent's actual state and goal. Our analysis finds that
this stems from ReAct's inability to maintain consistent internal beliefs and
goal alignment, causing compounding errors and hallucinations. To address this,
we introduce ReflAct, a novel backbone that shifts reasoning from merely
planning next actions to continuously reflecting on the agent's state relative
to its goal. By explicitly grounding decisions in states and enforcing ongoing
goal alignment, ReflAct dramatically improves strategic reliability. This
design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7%
on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even
outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM),
showing that strengthening the core reasoning backbone is key to reliable agent
performance.Summary
AI-Generated Summary