Lyra: Ricostruzione Generativa di Scene 3D tramite Modello di Diffusione Video e Auto-Distillazione
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
September 23, 2025
Autori: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI
Abstract
La capacità di generare ambienti virtuali è cruciale per applicazioni che spaziano dai giochi ai domini dell'IA fisica come la robotica, la guida autonoma e l'IA industriale. Gli attuali metodi di ricostruzione 3D basati sull'apprendimento si affidano alla disponibilità di dati multi-vista catturati dal mondo reale, che non sono sempre facilmente accessibili. I recenti progressi nei modelli di diffusione video hanno dimostrato notevoli capacità immaginative, ma la loro natura 2D limita le applicazioni alla simulazione in cui un robot deve navigare e interagire con l'ambiente. In questo articolo, proponiamo un framework di auto-distillazione che mira a distillare la conoscenza 3D implicita nei modelli di diffusione video in una rappresentazione esplicita di 3D Gaussian Splatting (3DGS), eliminando la necessità di dati di addestramento multi-vista. Nello specifico, integriamo il tipico decoder RGB con un decoder 3DGS, supervisionato dall'output del decoder RGB. In questo approccio, il decoder 3DGS può essere addestrato esclusivamente con dati sintetici generati da modelli di diffusione video. Al momento dell'inferenza, il nostro modello può sintetizzare scene 3D da un prompt testuale o da una singola immagine per il rendering in tempo reale. Il nostro framework si estende ulteriormente alla generazione di scene 3D dinamiche da un video monoculare in input. I risultati sperimentali dimostrano che il nostro framework raggiunge prestazioni all'avanguardia nella generazione di scene 3D statiche e dinamiche.
English
The ability to generate virtual environments is crucial for applications
ranging from gaming to physical AI domains such as robotics, autonomous
driving, and industrial AI. Current learning-based 3D reconstruction methods
rely on the availability of captured real-world multi-view data, which is not
always readily available. Recent advancements in video diffusion models have
shown remarkable imagination capabilities, yet their 2D nature limits the
applications to simulation where a robot needs to navigate and interact with
the environment. In this paper, we propose a self-distillation framework that
aims to distill the implicit 3D knowledge in the video diffusion models into an
explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for
multi-view training data. Specifically, we augment the typical RGB decoder with
a 3DGS decoder, which is supervised by the output of the RGB decoder. In this
approach, the 3DGS decoder can be purely trained with synthetic data generated
by video diffusion models. At inference time, our model can synthesize 3D
scenes from either a text prompt or a single image for real-time rendering. Our
framework further extends to dynamic 3D scene generation from a monocular input
video. Experimental results show that our framework achieves state-of-the-art
performance in static and dynamic 3D scene generation.