Lernen aus Versuch und Irrtum: Reflektive Planung zur Testzeit für verkörperte LLMs

Zusammenfassung

Embodied LLMs verleihen Robotern zwar eine hochrangige Aufgabenplanung, können jedoch nicht reflektieren, was schiefgelaufen ist oder warum. Dies macht den Einsatz zu einer Abfolge unabhängiger Versuche, bei denen sich Fehler wiederholen, anstatt sich zu Erfahrung anzusammeln. Inspiriert von menschlichen Reflective Practitioners führen wir Reflective Test-Time Planning ein, das zwei Reflexionsmodi integriert: Reflection-in-Action, bei dem der Agent Test-Time-Scaling nutzt, um vor der Ausführung multiple Handlungsoptionen durch interne Reflexionen zu generieren und zu bewerten; sowie Reflection-on-Action, das Test-Time-Training verwendet, um sowohl sein internes Reflexionsmodell als auch seine Handlungsstrategie nach der Ausführung auf Basis externer Reflexionen zu aktualisieren. Zusätzlich integrieren wir retrospektive Reflexion, die es dem Agenten ermöglicht, frühere Entscheidungen neu zu bewerten und Modellaktualisierungen im Nachhinein für eine korrekte langfristige Kreditzuweisung vorzunehmen. Experimente auf unserem neu entwickelten Long-Horizon Household Benchmark und dem MuJoCo Cupboard Fitting Benchmark zeigen signifikante Verbesserungen gegenüber Baseline-Modellen, wobei Ablationsstudien die komplementären Rollen von Reflection-in-Action und Reflection-on-Action validieren. Qualitative Analysen, einschließlich Versuchen mit echten Robotern, verdeutlichen Verhaltenskorrekturen durch Reflexion.

English

Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: reflection-in-action, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and reflection-on-action, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.

Lernen aus Versuch und Irrtum: Reflektive Planung zur Testzeit für verkörperte LLMs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Zusammenfassung

Support