FRAPPE: Infondere la Modellazione del Mondo nelle Politiche Generaliste tramite Allineamento di Multiple Rappresentazioni Future

Abstract

Consentire ai modelli VLA di prevedere le dinamiche ambientali, nota come modellazione del mondo, è riconosciuto come essenziale per migliorare il ragionamento e la generalizzazione robotica. Tuttavia, gli approcci attuali affrontano due problemi principali: 1. L'obiettivo di addestramento costringe i modelli a enfatizzare eccessivamente la ricostruzione a livello di pixel, limitando l'apprendimento semantico e la generalizzazione. 2. La dipendenza da osservazioni future previste durante l'inferenza porta spesso all'accumulo di errori. Per affrontare queste sfide, introduciamo l'Allineamento della Rappresentazione Futura tramite Espansione Parallela Progressiva (FRAPPE). Il nostro metodo adotta una strategia di fine-tuning in due fasi: Nella fase di mid-training, il modello impara a prevedere le rappresentazioni latenti delle osservazioni future; Nella fase di post-training, espandiamo il carico computazionale in parallelo e allineiamo simultaneamente la rappresentazione con più modelli fondazionali visivi diversi. Migliorando significativamente l'efficienza del fine-tuning e riducendo la dipendenza da dati annotati con azioni, FRAPPE fornisce un percorso scalabile ed efficiente nei dati per potenziare la consapevolezza del mondo nelle politiche robotiche generaliste. Esperimenti sul benchmark RoboTwin e su compiti nel mondo reale dimostrano che FRAPPE supera gli approcci all'avanguardia e mostra una forte generalizzazione in scenari a lungo orizzonte e non visti precedentemente.

English

Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.

FRAPPE: Infondere la Modellazione del Mondo nelle Politiche Generaliste tramite Allineamento di Multiple Rappresentazioni Future

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

Abstract

Support