FRAPPE: Wereldmodellering Inbrengen in Generalistische Beleidsregels via Meervoudige Toekomstige Representatie-uitlijning

Samenvatting

Het in staat stellen van VLA-modellen om omgevingsdynamiek te voorspellen, ook wel wereldmodellering genoemd, wordt erkend als essentieel voor het verbeteren van robotredenering en generalisatie. Huidige benaderingen kampen echter met twee hoofdproblemen: 1. Het trainingsdoel dwingt modellen om te veel nadruk te leggen op pixelreconstructie, wat semantisch leren en generalisatie beperkt. 2. Afhankelijkheid van voorspelde toekomstige observaties tijdens inferentie leidt vaak tot foutenaccumulatie. Om deze uitdagingen aan te pakken, introduceren wij Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Onze methode hanteert een tweefasige fine-tuningstrategie: in de mid-trainingfase leert het model de latente representaties van toekomstige observaties te voorspellen; in de post-trainingfase breiden we de rekenwerkdruk parallel uit en aligneren we de representatie simultaan met meerdere verschillende visuele foundation-modellen. Door de fine-tuning efficiëntie aanzienlijk te verbeteren en de afhankelijkheid van actie-geannoteerde data te verminderen, biedt FRAPPE een schaalbare en data-efficiënte route om wereldbewustzijn in generalistische robotbeleidsregels te versterken. Experimenten op de RoboTwin-benchmark en real-world taken tonen aan dat FRAPPE state-of-the-art benaderingen overtreft en sterke generalisatie vertoont in langetermijn- en onbekende scenario's.

English

Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.

FRAPPE: Wereldmodellering Inbrengen in Generalistische Beleidsregels via Meervoudige Toekomstige Representatie-uitlijning

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

Samenvatting

Support