TesserAct: Het leren van 4D belichaamde wereldmodellen
TesserAct: Learning 4D Embodied World Models
April 29, 2025
Auteurs: Haoyu Zhen, Qiao Sun, Hongxin Zhang, Junyan Li, Siyuan Zhou, Yilun Du, Chuang Gan
cs.AI
Samenvatting
Dit artikel presenteert een effectieve aanpak voor het leren van nieuwe 4D belichaamde wereldmodellen, die de dynamische evolutie van 3D-scènes in de tijd voorspellen als reactie op de acties van een belichaamde agent, waarbij zowel ruimtelijke als temporele consistentie wordt geboden. Wij stellen voor om een 4D wereldmodel te leren door te trainen op RGB-DN (RGB, Diepte en Normaal) video's. Dit overtreft niet alleen traditionele 2D-modellen door gedetailleerde vorm, configuratie en temporele veranderingen in hun voorspellingen op te nemen, maar stelt ons ook in staat om nauwkeurige inverse dynamische modellen voor een belichaamde agent effectief te leren. Specifiek breiden we eerst bestaande datasets voor robotmanipulatievideo's uit met diepte- en normaalinformatie door gebruik te maken van standaardmodellen. Vervolgens fine-tunen we een videogeneratiemodel op deze geannoteerde dataset, dat gezamenlijk RGB-DN (RGB, Diepte en Normaal) voor elk frame voorspelt. Daarna presenteren we een algoritme om gegenereerde RGB-, Diepte- en Normaalvideo's direct om te zetten in een hoogwaardige 4D-scène van de wereld. Onze methode zorgt voor temporele en ruimtelijke samenhang in 4D-scènevoorspellingen uit belichaamde scenario's, maakt nieuwe weergavesynthese mogelijk voor belichaamde omgevingen, en vergemakkelijkt beleidsleren dat aanzienlijk beter presteert dan dat afgeleid van eerdere videogebaseerde wereldmodellen.
English
This paper presents an effective approach for learning novel 4D embodied
world models, which predict the dynamic evolution of 3D scenes over time in
response to an embodied agent's actions, providing both spatial and temporal
consistency. We propose to learn a 4D world model by training on RGB-DN (RGB,
Depth, and Normal) videos. This not only surpasses traditional 2D models by
incorporating detailed shape, configuration, and temporal changes into their
predictions, but also allows us to effectively learn accurate inverse dynamic
models for an embodied agent. Specifically, we first extend existing robotic
manipulation video datasets with depth and normal information leveraging
off-the-shelf models. Next, we fine-tune a video generation model on this
annotated dataset, which jointly predicts RGB-DN (RGB, Depth, and Normal) for
each frame. We then present an algorithm to directly convert generated RGB,
Depth, and Normal videos into a high-quality 4D scene of the world. Our method
ensures temporal and spatial coherence in 4D scene predictions from embodied
scenarios, enables novel view synthesis for embodied environments, and
facilitates policy learning that significantly outperforms those derived from
prior video-based world models.Summary
AI-Generated Summary