Aprendendo com Tentativas e Erros: Planejamento Reflexivo em Tempo de Teste para LLMs Corporificados
Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
February 24, 2026
Autores: Yining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi
cs.AI
Resumo
Os LLMs incorporados conferem aos robôs raciocínio de alto nível para tarefas, mas não conseguem refletir sobre o que deu errado ou por quê, transformando a implantação em uma sequência de tentativas independentes onde os erros se repetem em vez de se acumularem como experiência. Inspirados nos profissionais reflexivos humanos, introduzimos o Planejamento Reflexivo em Tempo de Teste, que integra dois modos de reflexão: reflexão-em-ação, onde o agente usa escalonamento em tempo de teste para gerar e pontuar múltiplas ações candidatas usando reflexões internas antes da execução; e reflexão-sobre-ação, que usa treinamento em tempo de teste para atualizar tanto seu modelo de reflexão interno quanto sua política de ação com base em reflexões externas após a execução. Também incluímos a reflexão retrospectiva, permitindo que o agente reavalie decisões anteriores e realize atualizações do modelo com a vantagem do retrospecto para uma correta atribuição de crédito de longo prazo. Experimentos em nosso novo benchmark Long-Horizon Household e no benchmark MuJoCo Cupboard Fitting mostram ganhos significativos em relação aos modelos de base, com estudos ablativos validando os papéis complementares da reflexão-em-ação e da reflexão-sobre-ação. Análises qualitativas, incluindo testes com robôs reais, destacam a correção comportamental por meio da reflexão.
English
Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: reflection-in-action, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and reflection-on-action, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.