Imparare da Prove ed Errori: Pianificazione Riflessiva al Momento del Test per LLM Incorporati

Abstract

I modelli linguistici incarnati conferiscono ai robot un ragionamento di alto livello sui compiti, ma non sono in grado di riflettere su cosa sia andato storto o sul perché, trasformando la messa in opera in una sequenza di tentativi indipendenti in cui gli errori si ripetono invece di accumularsi in esperienza. Ispirandoci ai professionisti riflessivi umani, introduciamo la Pianificazione Riflessiva al Momento del Test, che integra due modalità di riflessione: la riflessione nell'azione, in cui l'agente utilizza il ridimensionamento al momento del test per generare e valutare più azioni candidate usando riflessioni interne prima dell'esecuzione; e la riflessione sull'azione, che utilizza l'addestramento al momento del test per aggiornare sia il proprio modello di riflessione interno che la propria politica d'azione basandosi su riflessioni esterne dopo l'esecuzione. Includiamo inoltre la riflessione retrospettiva, che consente all'agente di rivalutare le decisioni precedenti e di eseguire aggiornamenti del modello col senno di poi per una corretta assegnazione del credito a lungo termine. Gli esperimenti sul nostro nuovo benchmark Long-Horizon Household e sul benchmark MuJoCo Cupboard Fitting mostrano miglioramenti significativi rispetto ai modelli di base, con studi di ablazione che convalidano i ruoli complementari della riflessione nell'azione e della riflessione sull'azione. Le analisi qualitative, inclusi test su robot reali, evidenziano la correzione comportamentale attraverso la riflessione.

English

Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: reflection-in-action, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and reflection-on-action, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.

Imparare da Prove ed Errori: Pianificazione Riflessiva al Momento del Test per LLM Incorporati

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Abstract

Support