Guida del Mondo: Modellazione del Mondo nello Spazio delle Condizioni per la Generazione di Azioni

Abstract

Lo sfruttamento della modellazione delle osservazioni future per facilitare la generazione di azioni rappresenta una prospettiva promettente per potenziare le capacità dei modelli Visione-Linguaggio-Azione (VLA). Tuttavia, gli approcci esistenti faticano a trovare un equilibrio tra il mantenimento di rappresentazioni future efficienti e prevedibili e la conservazione di informazioni sufficientemente dettagliate per guidare una generazione precisa delle azioni. Per superare questa limitazione, proponiamo WoG (World Guidance), un framework che mappa le osservazioni future in condizioni compatte iniettandole nella pipeline di inferenza delle azioni. Il modello VLA viene quindi addestrato a prevedere simultaneamente queste condizioni compresse insieme alle azioni future, realizzando così una modellazione efficace del mondo all'interno dello spazio delle condizioni per l'inferenza delle azioni. Dimostriamo che la modellazione e la previsione di questo spazio delle condizioni non solo facilita la generazione granulare di azioni, ma mostra anche capacità di generalizzazione superiori. Inoltre, il metodo apprende efficacemente da un ampio numero di video di manipolazione umana. Esperimenti estensivi in ambienti sia simulati che reali convalidano che il nostro metodo supera significativamente i metodi esistenti basati sulla predizione futura. La pagina del progetto è disponibile all'indirizzo: https://selen-suyue.github.io/WoGNet/

English

Leveraging future observation modeling to facilitate action generation presents a promising avenue for enhancing the capabilities of Vision-Language-Action (VLA) models. However, existing approaches struggle to strike a balance between maintaining efficient, predictable future representations and preserving sufficient fine-grained information to guide precise action generation. To address this limitation, we propose WoG (World Guidance), a framework that maps future observations into compact conditions by injecting them into the action inference pipeline. The VLA is then trained to simultaneously predict these compressed conditions alongside future actions, thereby achieving effective world modeling within the condition space for action inference. We demonstrate that modeling and predicting this condition space not only facilitates fine-grained action generation but also exhibits superior generalization capabilities. Moreover, it learns effectively from substantial human manipulation videos. Extensive experiments across both simulation and real-world environments validate that our method significantly outperforms existing methods based on future prediction. Project page is available at: https://selen-suyue.github.io/WoGNet/

Guida del Mondo: Modellazione del Mondo nello Spazio delle Condizioni per la Generazione di Azioni

World Guidance: World Modeling in Condition Space for Action Generation

Abstract

Support