TesserAct: Het leren van 4D belichaamde wereldmodellen

Samenvatting

Dit artikel presenteert een effectieve aanpak voor het leren van nieuwe 4D belichaamde wereldmodellen, die de dynamische evolutie van 3D-scènes in de tijd voorspellen als reactie op de acties van een belichaamde agent, waarbij zowel ruimtelijke als temporele consistentie wordt geboden. Wij stellen voor om een 4D wereldmodel te leren door te trainen op RGB-DN (RGB, Diepte en Normaal) video's. Dit overtreft niet alleen traditionele 2D-modellen door gedetailleerde vorm, configuratie en temporele veranderingen in hun voorspellingen op te nemen, maar stelt ons ook in staat om nauwkeurige inverse dynamische modellen voor een belichaamde agent effectief te leren. Specifiek breiden we eerst bestaande datasets voor robotmanipulatievideo's uit met diepte- en normaalinformatie door gebruik te maken van standaardmodellen. Vervolgens fine-tunen we een videogeneratiemodel op deze geannoteerde dataset, dat gezamenlijk RGB-DN (RGB, Diepte en Normaal) voor elk frame voorspelt. Daarna presenteren we een algoritme om gegenereerde RGB-, Diepte- en Normaalvideo's direct om te zetten in een hoogwaardige 4D-scène van de wereld. Onze methode zorgt voor temporele en ruimtelijke samenhang in 4D-scènevoorspellingen uit belichaamde scenario's, maakt nieuwe weergavesynthese mogelijk voor belichaamde omgevingen, en vergemakkelijkt beleidsleren dat aanzienlijk beter presteert dan dat afgeleid van eerdere videogebaseerde wereldmodellen.

English

This paper presents an effective approach for learning novel 4D embodied world models, which predict the dynamic evolution of 3D scenes over time in response to an embodied agent's actions, providing both spatial and temporal consistency. We propose to learn a 4D world model by training on RGB-DN (RGB, Depth, and Normal) videos. This not only surpasses traditional 2D models by incorporating detailed shape, configuration, and temporal changes into their predictions, but also allows us to effectively learn accurate inverse dynamic models for an embodied agent. Specifically, we first extend existing robotic manipulation video datasets with depth and normal information leveraging off-the-shelf models. Next, we fine-tune a video generation model on this annotated dataset, which jointly predicts RGB-DN (RGB, Depth, and Normal) for each frame. We then present an algorithm to directly convert generated RGB, Depth, and Normal videos into a high-quality 4D scene of the world. Our method ensures temporal and spatial coherence in 4D scene predictions from embodied scenarios, enables novel view synthesis for embodied environments, and facilitates policy learning that significantly outperforms those derived from prior video-based world models.

TesserAct: Het leren van 4D belichaamde wereldmodellen

TesserAct: Learning 4D Embodied World Models

Samenvatting

Summary

Support

Support