Lyra: Generatieve 3D-scène-reconstructie via videodiffusiemodel Zelfdistillatie
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
September 23, 2025
Auteurs: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI
Samenvatting
Het vermogen om virtuele omgevingen te genereren is cruciaal voor toepassingen die variëren van gaming tot fysieke AI-domeinen zoals robotica, autonoom rijden en industriële AI. Huidige op leren gebaseerde 3D-reconstructiemethoden zijn afhankelijk van de beschikbaarheid van vastgelegde real-world multi-view data, die niet altijd direct beschikbaar is. Recente vooruitgang in videodiffusiemodellen heeft opmerkelijke verbeeldingskracht getoond, maar hun 2D-natuur beperkt de toepassingen in simulaties waar een robot moet navigeren en interacteren met de omgeving. In dit artikel stellen we een zelfdistillatiekader voor dat ernaar streeft de impliciete 3D-kennis in videodiffusiemodellen te distilleren naar een expliciete 3D Gaussian Splatting (3DGS)-representatie, waardoor de behoefte aan multi-view trainingsdata wordt geëlimineerd. Specifiek verrijken we de typische RGB-decoder met een 3DGS-decoder, die wordt gesuperviseerd door de output van de RGB-decoder. In deze aanpak kan de 3DGS-decoder puur worden getraind met synthetische data gegenereerd door videodiffusiemodellen. Tijdens inferentie kan ons model 3D-scènes synthetiseren vanuit een tekstprompt of een enkele afbeelding voor real-time rendering. Ons kader breidt zich verder uit naar dynamische 3D-scènegeneratie vanuit een monocular invoervideo. Experimentele resultaten tonen aan dat ons kader state-of-the-art prestaties bereikt in zowel statische als dynamische 3D-scènegeneratie.
English
The ability to generate virtual environments is crucial for applications
ranging from gaming to physical AI domains such as robotics, autonomous
driving, and industrial AI. Current learning-based 3D reconstruction methods
rely on the availability of captured real-world multi-view data, which is not
always readily available. Recent advancements in video diffusion models have
shown remarkable imagination capabilities, yet their 2D nature limits the
applications to simulation where a robot needs to navigate and interact with
the environment. In this paper, we propose a self-distillation framework that
aims to distill the implicit 3D knowledge in the video diffusion models into an
explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for
multi-view training data. Specifically, we augment the typical RGB decoder with
a 3DGS decoder, which is supervised by the output of the RGB decoder. In this
approach, the 3DGS decoder can be purely trained with synthetic data generated
by video diffusion models. At inference time, our model can synthesize 3D
scenes from either a text prompt or a single image for real-time rendering. Our
framework further extends to dynamic 3D scene generation from a monocular input
video. Experimental results show that our framework achieves state-of-the-art
performance in static and dynamic 3D scene generation.