ChatPaper.aiChatPaper

Lyra: Reconstrucción generativa de escenas 3D mediante un modelo de difusión de video y auto-distilación

Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

September 23, 2025
Autores: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI

Resumen

La capacidad de generar entornos virtuales es crucial para aplicaciones que van desde los videojuegos hasta dominios de IA física como la robótica, la conducción autónoma y la IA industrial. Los métodos actuales de reconstrucción 3D basados en aprendizaje dependen de la disponibilidad de datos multivista capturados del mundo real, los cuales no siempre están fácilmente accesibles. Los recientes avances en los modelos de difusión de video han demostrado capacidades notables de imaginación, aunque su naturaleza 2D limita las aplicaciones en simulaciones donde un robot necesita navegar e interactuar con el entorno. En este artículo, proponemos un marco de auto-distilación que busca destilar el conocimiento implícito en 3D de los modelos de difusión de video en una representación explícita de 3D Gaussian Splatting (3DGS), eliminando la necesidad de datos de entrenamiento multivista. Específicamente, aumentamos el decodificador RGB típico con un decodificador 3DGS, el cual es supervisado por la salida del decodificador RGB. En este enfoque, el decodificador 3DGS puede entrenarse únicamente con datos sintéticos generados por modelos de difusión de video. En el momento de la inferencia, nuestro modelo puede sintetizar escenas 3D a partir de un texto descriptivo o una sola imagen para renderizado en tiempo real. Nuestro marco se extiende además a la generación de escenas 3D dinámicas a partir de un video de entrada monocular. Los resultados experimentales muestran que nuestro marco logra un rendimiento de vanguardia en la generación de escenas 3D estáticas y dinámicas.
English
The ability to generate virtual environments is crucial for applications ranging from gaming to physical AI domains such as robotics, autonomous driving, and industrial AI. Current learning-based 3D reconstruction methods rely on the availability of captured real-world multi-view data, which is not always readily available. Recent advancements in video diffusion models have shown remarkable imagination capabilities, yet their 2D nature limits the applications to simulation where a robot needs to navigate and interact with the environment. In this paper, we propose a self-distillation framework that aims to distill the implicit 3D knowledge in the video diffusion models into an explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for multi-view training data. Specifically, we augment the typical RGB decoder with a 3DGS decoder, which is supervised by the output of the RGB decoder. In this approach, the 3DGS decoder can be purely trained with synthetic data generated by video diffusion models. At inference time, our model can synthesize 3D scenes from either a text prompt or a single image for real-time rendering. Our framework further extends to dynamic 3D scene generation from a monocular input video. Experimental results show that our framework achieves state-of-the-art performance in static and dynamic 3D scene generation.
PDF214September 24, 2025