Orientación Mundial: Modelado del Mundo en Espacio de Condiciones para la Generación de Acciones

Resumen

El aprovechamiento del modelado de observaciones futuras para facilitar la generación de acciones presenta una vía prometedora para mejorar las capacidades de los modelos Visión-Lenguaje-Acción (VLA). Sin embargo, los enfoques existentes tienen dificultades para encontrar un equilibrio entre mantener representaciones futuras eficientes y predecibles, y preservar suficiente información de grano fino para guiar una generación de acciones precisa. Para abordar esta limitación, proponemos WoG (World Guidance), un marco de trabajo que mapea observaciones futuras en condiciones compactas inyectándolas en la canalización de inferencia de acciones. Posteriormente, el modelo VLA se entrena para predecir simultáneamente estas condiciones comprimidas junto con las acciones futuras, logrando así un modelado mundial efectivo dentro del espacio de condiciones para la inferencia de acciones. Demostramos que modelar y predecir este espacio de condiciones no solo facilita la generación de acciones de grano fino, sino que también exhibe capacidades de generalización superiores. Además, aprende eficazmente a partir de una gran cantidad de videos de manipulación humana. Experimentos exhaustivos en entornos tanto de simulación como del mundo real validan que nuestro método supera significativamente a los métodos existentes basados en predicción futura. La página del proyecto está disponible en: https://selen-suyue.github.io/WoGNet/

English

Leveraging future observation modeling to facilitate action generation presents a promising avenue for enhancing the capabilities of Vision-Language-Action (VLA) models. However, existing approaches struggle to strike a balance between maintaining efficient, predictable future representations and preserving sufficient fine-grained information to guide precise action generation. To address this limitation, we propose WoG (World Guidance), a framework that maps future observations into compact conditions by injecting them into the action inference pipeline. The VLA is then trained to simultaneously predict these compressed conditions alongside future actions, thereby achieving effective world modeling within the condition space for action inference. We demonstrate that modeling and predicting this condition space not only facilitates fine-grained action generation but also exhibits superior generalization capabilities. Moreover, it learns effectively from substantial human manipulation videos. Extensive experiments across both simulation and real-world environments validate that our method significantly outperforms existing methods based on future prediction. Project page is available at: https://selen-suyue.github.io/WoGNet/

Orientación Mundial: Modelado del Mundo en Espacio de Condiciones para la Generación de Acciones

World Guidance: World Modeling in Condition Space for Action Generation

Resumen

Support