ChatPaper.aiChatPaper

FRAPPE: Интеграция моделирования мира в универсальные стратегии посредством выравнивания множественных репрезентаций будущего

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

February 19, 2026
Авторы: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang
cs.AI

Аннотация

Обеспечение способности моделей VLA предсказывать динамику окружающей среды, известное как моделирование мира, признано ключевым для улучшения роботизированного мышления и обобщения. Однако современные подходы сталкиваются с двумя основными проблемами: 1. Цель обучения заставляет модели чрезмерно акцентироваться на пиксельной реконструкции, что ограничивает семантическое обучение и обобщение. 2. Зависимость от предсказанных будущих наблюдений во время вывода часто приводит к накоплению ошибок. Для решения этих задач мы представляем метод выравнивания будущих репрезентаций через параллельное прогрессивное расширение (FRAPPE). Наш метод использует двухэтапную стратегию дообучения: на этапе mid-training модель учится предсказывать латентные репрезентации будущих наблюдений; на этапе post-training мы параллельно наращиваем вычислительную нагрузку и одновременно выравниваем репрезентацию с помощью нескольких различных визуальных базовых моделей. Значительно повышая эффективность дообучения и снижая зависимость от размеченных действиями данных, FRAPPE предлагает масштабируемый и экономный по данным путь для усиления осведомленности о мире в универсальных роботизированных политиках. Эксперименты на бенчмарке RoboTwin и реальных задачах демонстрируют, что FRAPPE превосходит современные подходы и показывает сильное обобщение в долгосрочных и непредвиденных сценариях.
English
Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.
PDF31February 21, 2026