ChatPaper.aiChatPaper

FRAPPE: 複数の未来表現アライメントによる汎用ポリシーへの世界モデル統合

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

February 19, 2026
著者: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang
cs.AI

要旨

VLAモデルに環境ダイナミクスを予測する能力(世界モデリング)を付与することは、ロボットの推論能力と一般化性能を向上させる上で不可欠であると認識されている。しかし、現在のアプローチには2つの主要な課題がある:1. 学習目標がピクセルレベルの再構築を過度に重視させるため、意味的学習と一般化が制約される 2. 推論時に予測された未来観測値に依存するため、誤差蓄積が生じやすい。これらの課題に対処するため、我々は並列漸進的拡張による未来表現アライメント(FRAPPE)を提案する。本手法は2段階のファインチューニング戦略を採用する:中間学習段階では、モデルが未来観測の潜在表現を予測することを学習し、後学習段階では計算負荷を並列に拡張し、複数の異なる視覚基盤モデルと表現を同時にアライメントする。ファインチューニング効率を大幅に改善し、行動注釈データへの依存を軽減することで、FRAPPEは汎用ロボットポリシーにおける世界認識能力を強化するスケーラブルでデータ効率の良い経路を提供する。RoboTwinベンチマークと実世界タスクによる実験により、FRAPPEが最先端手法を凌駕し、長期予測や未経験シナリオにおいて強力な一般化性能を示すことを実証した。
English
Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.
PDF31February 21, 2026