ReflAct: Decisioni Fondate sul Mondo negli Agenti LLM tramite Riflessione sullo Stato Obiettivo
ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
May 21, 2025
Autori: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI
Abstract
I recenti progressi negli agenti LLM si sono basati principalmente su architetture di ragionamento come ReAct, che alternano pensiero e azione in ambienti complessi. Tuttavia, ReAct spesso produce passaggi di ragionamento privi di fondamento o incoerenti, portando a una disallineamento tra lo stato effettivo dell'agente e l'obiettivo. La nostra analisi rileva che ciò deriva dall'incapacità di ReAct di mantenere credenze interne coerenti e un allineamento con l'obiettivo, causando errori cumulativi e allucinazioni. Per affrontare questo problema, introduciamo ReflAct, una nuova architettura che sposta il ragionamento dalla semplice pianificazione delle azioni successive a una riflessione continua sullo stato dell'agente rispetto al suo obiettivo. Basando esplicitamente le decisioni sugli stati e rafforzando l'allineamento continuo con l'obiettivo, ReflAct migliora notevolmente l'affidabilità strategica. Questo design produce significativi miglioramenti empirici: ReflAct supera ReAct del 27,7% in media, raggiungendo un tasso di successo del 93,3% in ALFWorld. In particolare, ReflAct supera persino ReAct con moduli di potenziamento aggiuntivi (ad esempio, Reflexion, WKM), dimostrando che rafforzare il nucleo del ragionamento è fondamentale per prestazioni affidabili degli agenti.
English
Recent advances in LLM agents have largely built on reasoning backbones like
ReAct, which interleave thought and action in complex environments. However,
ReAct often produces ungrounded or incoherent reasoning steps, leading to
misalignment between the agent's actual state and goal. Our analysis finds that
this stems from ReAct's inability to maintain consistent internal beliefs and
goal alignment, causing compounding errors and hallucinations. To address this,
we introduce ReflAct, a novel backbone that shifts reasoning from merely
planning next actions to continuously reflecting on the agent's state relative
to its goal. By explicitly grounding decisions in states and enforcing ongoing
goal alignment, ReflAct dramatically improves strategic reliability. This
design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7%
on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even
outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM),
showing that strengthening the core reasoning backbone is key to reliable agent
performance.