Обучение на ошибках: рефлексивное планирование в режиме реального времени для воплощённых языковых моделей

Аннотация

Воплощенные большие языковые модели (LLM) наделяют роботов способностью к решению сложных задач, однако они не могут анализировать, что пошло не так и почему, превращая развертывание в последовательность независимых попыток, где ошибки повторяются, а не накапливаются в опыт. Вдохновившись концепцией рефлексивной практики у людей, мы представляем метод рефлексивного планирования в тестовом времени, который объединяет два режима рефлексии: рефлексию в действии, при которой агент использует масштабирование в тестовом времени для генерации и оценки множества кандидатных действий с помощью внутренних размышлений до их выполнения; и рефлексию о действии, которая использует обучение в тестовом времени для обновления как внутренней модели рефлексии, так и политики действий на основе внешних отражений после выполнения. Мы также включаем ретроспективную рефлексию, позволяющую агенту переоценивать ранее принятые решения и выполнять обновления модели с учетом последующей информации для корректного распределения заслуг на длительных горизонтах. Эксперименты на newly-designed бенчмарке Long-Horizon Household и бенчмарке MuJoCo Cupboard Fitting демонстрируют значительное преимущество над базовыми моделями, а абляционные исследования подтверждают комплементарную роль рефлексии в действии и рефлексии о действии. Качественный анализ, включая испытания на реальном роботе, подчеркивает поведенческую коррекцию через рефлексию.

English

Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a sequence of independent trials where mistakes repeat rather than accumulate into experience. Drawing upon human reflective practitioners, we introduce Reflective Test-Time Planning, which integrates two modes of reflection: reflection-in-action, where the agent uses test-time scaling to generate and score multiple candidate actions using internal reflections before execution; and reflection-on-action, which uses test-time training to update both its internal reflection model and its action policy based on external reflections after execution. We also include retrospective reflection, allowing the agent to re-evaluate earlier decisions and perform model updates with hindsight for proper long-horizon credit assignment. Experiments on our newly-designed Long-Horizon Household benchmark and MuJoCo Cupboard Fitting benchmark show significant gains over baseline models, with ablative studies validating the complementary roles of reflection-in-action and reflection-on-action. Qualitative analyses, including real-robot trials, highlight behavioral correction through reflection.

Обучение на ошибках: рефлексивное планирование в режиме реального времени для воплощённых языковых моделей

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Аннотация

Support