Leren van vallen en opstaan: Reflectieve planning tijdens tests voor belichaamde grote taalmodellen

Samenvatting

Belichaamde grote taalmodelmodellen (LLM's) bieden robots een hoog niveau van taakredenering, maar ze kunnen niet reflecteren op wat er misging of waarom, waardoor implementatie verandert in een reeks onafhankelijke pogingen waarbij fouten zich herhalen in plaats van zich opstapelen tot ervaring. Geïnspireerd door menselijke reflectieve beoefenaars, introduceren wij Reflectief Testtijdplanning, dat twee vormen van reflectie integreert: reflectie-in-handeling, waarbij de agent testtijd-schaling gebruikt om meerdere kandidaat-acties te genereren en scoren met interne reflecties vóór uitvoering; en reflectie-op-handeling, die testtijd-training gebruikt om zowel zijn interne reflectiemodel als zijn actiebeleid bij te werken op basis van externe reflecties na uitvoering. We voegen ook retrospectieve reflectie toe, waardoor de agent eerdere beslissingen kan herevalueren en modelupdates kan uitvoeren met terugwerkende kracht voor een correcte krediettoewijzing op lange termijn. Experimenten op onze nieuw ontworwen Long-Horizon Household benchmark en de MuJoCo Cupboard Fitting benchmark tonen significante verbeteringen ten opzichte van basismodellen, waarbij ablatiestudies de complementaire rollen van reflectie-in-handeling en reflectie-op-handeling valideren. Kwalitatieve analyses, inclusief proeven met echte robots, benadrukken gedragscorrectie door reflectie.

English

Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: reflection-in-action, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and reflection-on-action, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.

Leren van vallen en opstaan: Reflectieve planning tijdens tests voor belichaamde grote taalmodellen

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Samenvatting

Support