FRAPPE: Infusión de Modelado del Mundo en Políticas Generalistas mediante Alineación de Múltiples Representaciones Futuras
FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment
February 19, 2026
Autores: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang
cs.AI
Resumen
Dotar a los modelos VLA de la capacidad de predecir dinámicas ambientales, conocido como modelado del mundo, ha sido reconocido como esencial para mejorar el razonamiento y la generalización robóticos. Sin embargo, los enfoques actuales enfrentan dos problemas principales: 1. El objetivo de entrenamiento obliga a los modelos a enfatizar excesivamente la reconstrucción a nivel de píxeles, lo que restringe el aprendizaje semántico y la generalización. 2. La dependencia de observaciones futuras predichas durante la inferencia a menudo conduce a una acumulación de errores. Para abordar estos desafíos, presentamos Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Nuestro método adopta una estrategia de ajuste fino en dos etapas: En la fase de entrenamiento intermedio, el modelo aprende a predecir las representaciones latentes de observaciones futuras; En la fase de post-entrenamiento, expandimos la carga computacional en paralelo y alineamos la representación simultáneamente con múltiples modelos visuales base diferentes. Al mejorar significativamente la eficiencia del ajuste fino y reducir la dependencia de datos anotados con acciones, FRAPPE proporciona una vía escalable y eficiente en datos para mejorar la conciencia del mundo en políticas robóticas generalistas. Los experimentos en el benchmark RoboTwin y en tareas del mundo real demuestran que FRAPPE supera a los enfoques de vanguardia y muestra una fuerte generalización en escenarios de horizonte largo y no vistos.
English
Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.