ChatPaper.aiChatPaper

FRAPPE: Integration von Weltmodellierung in generalistische Strategien durch Multiple Future Representation Alignment

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

February 19, 2026
papers.authors: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang
cs.AI

papers.abstract

Die Fähigkeit von VLA-Modellen, Umweltdynamiken vorherzusagen (bekannt als World Modeling), gilt als entscheidend für die Verbesserung von robotischem Reasoning und Generalisierungsfähigkeit. Allerdings stehen aktuelle Ansätze vor zwei Hauptproblemen: 1. Das Trainingsziel zwingt Modelle dazu, Pixel-rekonstruktion überzubetonen, was semantisches Lernen und Generalisierung einschränkt. 2. Die Abhängigkeit von vorhergesagten Zukunftsbeobachtungen während der Inferenz führt oft zu Fehlerakkumulation. Zur Lösung dieser Herausforderungen stellen wir Future Representation Alignment via Parallel Progressive Expansion (FRAPPE) vor. Unser Ansatz verfolgt eine Zwei-Phasen-Finetuning-Strategie: In der Mid-Training-Phase lernt das Modell, latente Repräsentationen zukünftiger Beobachtungen vorherzusagen; in der Post-Training-Phase erweitern wir parallel die Rechenlast und alignieren die Repräsentation simultan mit mehreren visuellen Foundation-Modellen. Durch signifikant verbesserte Finetuning-Effizienz und reduzierte Abhängigkeit von aktionsannotierten Daten bietet FRAPPE einen skalierbaren und dateneffizienten Weg zur Steigerung des Weltverständnisses in generalistischen Robotik-Policies. Experimente auf dem RoboTwin-Benchmark und realen Aufgaben zeigen, dass FRAPPE state-of-the-art-Verfahren übertrifft und starke Generalisierung in langfristigen sowie ungesehenen Szenarien aufweist.
English
Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.
PDF31February 21, 2026