Aprendiendo de los Ensayos y Errores: Planificación Reflexiva en Tiempo de Prueba para Modelos de Lenguaje Grandes Embebidos

Resumen

Los LLM incorporados dotan a los robots de razonamiento de alto nivel para tareas, pero no pueden reflexionar sobre qué salió mal o por qué, convirtiendo el despliegue en una secuencia de pruebas independientes donde los errores se repiten en lugar de acumularse como experiencia. Inspirándonos en los profesionales reflexivos humanos, presentamos la Planificación Reflexiva en Tiempo de Prueba, que integra dos modos de reflexión: la reflexión en la acción, donde el agente utiliza el escalado en tiempo de prueba para generar y puntuar múltiples acciones candidatas mediante reflexiones internas antes de la ejecución; y la reflexión sobre la acción, que utiliza el entrenamiento en tiempo de prueba para actualizar tanto su modelo de reflexión interno como su política de acción basándose en reflexiones externas tras la ejecución. También incluimos la reflexión retrospectiva, permitiendo al agente reevaluar decisiones anteriores y realizar actualizaciones del modelo con perspectiva retrospectiva para una correcta asignación de crédito a largo plazo. Los experimentos en nuestro nuevo benchmark de Hogar de Largo Horizonte y en el benchmark de Ajuste de Alacena MuJoCo muestran mejoras significativas respecto a los modelos base, con estudios de ablación que validan los roles complementarios de la reflexión en la acción y la reflexión sobre la acción. Los análisis cualitativos, incluyendo pruebas con robots reales, destacan la corrección conductual mediante la reflexión.

English

Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: reflection-in-action, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and reflection-on-action, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.

Aprendiendo de los Ensayos y Errores: Planificación Reflexiva en Tiempo de Prueba para Modelos de Lenguaje Grandes Embebidos

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Resumen

Support