Guidance mondiale : Modélisation du monde dans l'espace des conditions pour la génération d'actions

Résumé

L'exploitation de la modélisation d'observations futures pour faciliter la génération d'actions représente une voie prometteuse pour améliorer les capacités des modèles Vision-Langage-Action (VLA). Cependant, les approches existantes peinent à trouver un équilibre entre le maintien de représentations futures efficaces et prévisibles et la préservation d'informations suffisamment fines pour guider une génération d'actions précise. Pour remédier à cette limitation, nous proposons WoG (World Guidance), un cadre qui cartographie les observations futures en conditions compactes en les injectant dans le pipeline d'inférence d'actions. Le modèle VLA est ensuite entraîné à prédire simultanément ces conditions compressées ainsi que les actions futures, réalisant ainsi une modélisation effective du monde dans l'espace de conditions pour l'inférence d'actions. Nous démontrons que la modélisation et la prédiction de cet espace de conditions facilitent non seulement la génération d'actions granulaires, mais présentent également des capacités de généralisation supérieures. De plus, notre méthode apprend efficacement à partir de vidéos substantielles de manipulations humaines. Des expériences approfondies, tant en simulation que dans des environnements réels, valident que notre méthode surpasse significativement les méthodes existantes basées sur la prédiction future. La page du projet est disponible à l'adresse : https://selen-suyue.github.io/WoGNet/

English

Leveraging future observation modeling to facilitate action generation presents a promising avenue for enhancing the capabilities of Vision-Language-Action (VLA) models. However, existing approaches struggle to strike a balance between maintaining efficient, predictable future representations and preserving sufficient fine-grained information to guide precise action generation. To address this limitation, we propose WoG (World Guidance), a framework that maps future observations into compact conditions by injecting them into the action inference pipeline. The VLA is then trained to simultaneously predict these compressed conditions alongside future actions, thereby achieving effective world modeling within the condition space for action inference. We demonstrate that modeling and predicting this condition space not only facilitates fine-grained action generation but also exhibits superior generalization capabilities. Moreover, it learns effectively from substantial human manipulation videos. Extensive experiments across both simulation and real-world environments validate that our method significantly outperforms existing methods based on future prediction. Project page is available at: https://selen-suyue.github.io/WoGNet/

Guidance mondiale : Modélisation du monde dans l'espace des conditions pour la génération d'actions

World Guidance: World Modeling in Condition Space for Action Generation

Résumé

Support