ChatPaper.aiChatPaper

Lyra : Reconstruction générative de scènes 3D via un modèle de diffusion vidéo et auto-distillation

Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

September 23, 2025
papers.authors: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI

papers.abstract

La capacité à générer des environnements virtuels est cruciale pour des applications allant du jeu vidéo aux domaines de l’IA physique tels que la robotique, la conduite autonome et l’IA industrielle. Les méthodes actuelles de reconstruction 3D basées sur l’apprentissage reposent sur la disponibilité de données multi-vues capturées dans le monde réel, qui ne sont pas toujours facilement accessibles. Les récents progrès des modèles de diffusion vidéo ont démontré des capacités d’imagination remarquables, mais leur nature 2D limite les applications à la simulation où un robot doit naviguer et interagir avec l’environnement. Dans cet article, nous proposons un cadre d’auto-distillation visant à extraire les connaissances implicites en 3D des modèles de diffusion vidéo pour les transformer en une représentation explicite de type 3D Gaussian Splatting (3DGS), éliminant ainsi le besoin de données d’entraînement multi-vues. Plus précisément, nous enrichissons le décodeur RGB typique avec un décodeur 3DGS, supervisé par la sortie du décodeur RGB. Dans cette approche, le décodeur 3DGS peut être entièrement entraîné avec des données synthétiques générées par les modèles de diffusion vidéo. Au moment de l’inférence, notre modèle peut synthétiser des scènes 3D à partir d’une invite textuelle ou d’une seule image pour un rendu en temps réel. Notre cadre s’étend également à la génération de scènes 3D dynamiques à partir d’une vidéo monoculaire en entrée. Les résultats expérimentaux montrent que notre cadre atteint des performances de pointe dans la génération de scènes 3D statiques et dynamiques.
English
The ability to generate virtual environments is crucial for applications ranging from gaming to physical AI domains such as robotics, autonomous driving, and industrial AI. Current learning-based 3D reconstruction methods rely on the availability of captured real-world multi-view data, which is not always readily available. Recent advancements in video diffusion models have shown remarkable imagination capabilities, yet their 2D nature limits the applications to simulation where a robot needs to navigate and interact with the environment. In this paper, we propose a self-distillation framework that aims to distill the implicit 3D knowledge in the video diffusion models into an explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for multi-view training data. Specifically, we augment the typical RGB decoder with a 3DGS decoder, which is supervised by the output of the RGB decoder. In this approach, the 3DGS decoder can be purely trained with synthetic data generated by video diffusion models. At inference time, our model can synthesize 3D scenes from either a text prompt or a single image for real-time rendering. Our framework further extends to dynamic 3D scene generation from a monocular input video. Experimental results show that our framework achieves state-of-the-art performance in static and dynamic 3D scene generation.
PDF214September 24, 2025