ChatPaper.aiChatPaper

FRAPPE : Infusion de la modélisation du monde dans les politiques généralistes par alignement de multiples représentations futures

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

February 19, 2026
papers.authors: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang
cs.AI

papers.abstract

Permettre aux modèles VLA de prédire la dynamique environnementale, connue sous le nom de modélisation du monde, est reconnu comme essentiel pour améliorer le raisonnement et la généralisation robotiques. Cependant, les approches actuelles rencontrent deux problèmes majeurs : 1. L'objectif d'entraînement force les modèles à surestimer la reconstruction au niveau pixel, ce qui limite l'apprentissage sémantique et la généralisation. 2. La dépendance aux observations futures prédites lors de l'inférence conduit souvent à une accumulation d'erreurs. Pour relever ces défis, nous introduisons l'Alignement des Représentations Futures par Expansion Progressive Parallèle (FRAPPE). Notre méthode adopte une stratégie de fine-tuning en deux étapes : Durant la phase de pré-entraînement intermédiaire, le modèle apprend à prédire les représentations latentes des observations futures ; Durant la phase de post-entraînement, nous augmentons la charge de calcul en parallèle et alignons simultanément la représentation avec plusieurs modèles de fondation visuelle différents. En améliorant significativement l'efficacité du fine-tuning et en réduisant la dépendance aux données annotées d'actions, FRAPPE offre une voie évolutive et économe en données pour renforcer la conscience du monde dans les politiques robotiques généralistes. Les expériences sur le benchmark RoboTwin et les tâches du monde réel démontrent que FRAPPE surpasse les approches de l'état de l'art et montre une forte généralisation dans les scénarios à long terme et non vus.
English
Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.
PDF31February 21, 2026