TesserAct : Apprentissage de modèles du monde incarné en 4D
TesserAct: Learning 4D Embodied World Models
April 29, 2025
Auteurs: Haoyu Zhen, Qiao Sun, Hongxin Zhang, Junyan Li, Siyuan Zhou, Yilun Du, Chuang Gan
cs.AI
Résumé
Cet article présente une approche efficace pour l'apprentissage de nouveaux modèles de monde incarné en 4D, qui prédisent l'évolution dynamique de scènes 3D au fil du temps en réponse aux actions d'un agent incarné, tout en assurant une cohérence spatiale et temporelle. Nous proposons d'apprendre un modèle de monde 4D en nous entraînant sur des vidéos RGB-DN (RGB, profondeur et normales). Cela dépasse non seulement les modèles 2D traditionnels en intégrant des informations détaillées sur la forme, la configuration et les changements temporels dans leurs prédictions, mais nous permet également d'apprendre efficacement des modèles dynamiques inverses précis pour un agent incarné. Plus précisément, nous commençons par enrichir les ensembles de données existants de vidéos de manipulation robotique avec des informations de profondeur et de normales en exploitant des modèles prêts à l'emploi. Ensuite, nous affinons un modèle de génération de vidéos sur cet ensemble de données annoté, qui prédit conjointement les valeurs RGB-DN (RGB, profondeur et normales) pour chaque image. Nous présentons ensuite un algorithme pour convertir directement les vidéos générées en RGB, profondeur et normales en une scène 4D de haute qualité du monde. Notre méthode garantit une cohérence temporelle et spatiale dans les prédictions de scènes 4D à partir de scénarios incarnés, permet la synthèse de nouvelles vues pour des environnements incarnés, et facilite l'apprentissage de politiques qui surpassent significativement celles dérivées de modèles de monde basés sur des vidéos antérieurs.
English
This paper presents an effective approach for learning novel 4D embodied
world models, which predict the dynamic evolution of 3D scenes over time in
response to an embodied agent's actions, providing both spatial and temporal
consistency. We propose to learn a 4D world model by training on RGB-DN (RGB,
Depth, and Normal) videos. This not only surpasses traditional 2D models by
incorporating detailed shape, configuration, and temporal changes into their
predictions, but also allows us to effectively learn accurate inverse dynamic
models for an embodied agent. Specifically, we first extend existing robotic
manipulation video datasets with depth and normal information leveraging
off-the-shelf models. Next, we fine-tune a video generation model on this
annotated dataset, which jointly predicts RGB-DN (RGB, Depth, and Normal) for
each frame. We then present an algorithm to directly convert generated RGB,
Depth, and Normal videos into a high-quality 4D scene of the world. Our method
ensures temporal and spatial coherence in 4D scene predictions from embodied
scenarios, enables novel view synthesis for embodied environments, and
facilitates policy learning that significantly outperforms those derived from
prior video-based world models.Summary
AI-Generated Summary