Apprendre des essais et des erreurs : Planification réflexive en temps de test pour les LLM incarnés

Résumé

Les LLM incarnés dotent les robots d'une capacité de raisonnement avancée pour les tâches, mais ils ne peuvent pas réfléchir à ce qui a mal fonctionné ou pourquoi, transformant le déploiement en une série d'essais indépendants où les erreurs se répètent plutôt que de s'accumuler en expérience. En nous inspirant des praticiens réflexifs humains, nous introduisons la Planification Réflexive en Temps Réel, qui intègre deux modes de réflexion : la réflexion-en-action, où l'agent utilise une mise à l'échelle en temps réel pour générer et évaluer plusieurs actions candidates via des réflexions internes avant exécution ; et la réflexion-sur-l'action, qui utilise l'apprentissage en temps réel pour mettre à jour à la fois son modèle de réflexion interne et sa politique d'action sur la base de réflexions externes après exécution. Nous incluons également la réflexion rétrospective, permettant à l'agent de réévaluer ses décisions antérieures et d'effectuer des mises à jour du modèle a posteriori pour une attribution correcte des crédits sur le long terme. Les expériences sur notre nouveau benchmark Long-Horizon Household et sur le benchmark MuJoCo Cupboard Fitting montrent des gains significatifs par rapport aux modèles de référence, avec des études ablatives validant les rôles complémentaires de la réflexion-en-action et de la réflexion-sur-l'action. Les analyses qualitatives, incluant des essais sur robots réels, mettent en évidence les corrections comportementales permises par la réflexion.

English

Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: reflection-in-action, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and reflection-on-action, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.

Apprendre des essais et des erreurs : Planification réflexive en temps de test pour les LLM incarnés

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Résumé

Support