Lyra: Generative 3D-Szenenrekonstruktion mittels Video-Diffusionsmodell und Selbst-Distillation
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
September 23, 2025
papers.authors: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI
papers.abstract
Die Fähigkeit, virtuelle Umgebungen zu generieren, ist entscheidend für Anwendungen, die von Gaming bis hin zu physischen KI-Domänen wie Robotik, autonomes Fahren und industrielle KI reichen. Aktuelle lernbasierte 3D-Rekonstruktionsmethoden setzen die Verfügbarkeit von erfassten Multi-View-Daten aus der realen Welt voraus, die nicht immer leicht zugänglich sind. Jüngste Fortschritte in Video-Diffusionsmodellen haben bemerkenswerte Vorstellungskraft gezeigt, doch ihre 2D-Natur beschränkt die Anwendungen auf Simulationen, in denen ein Roboter navigieren und mit der Umgebung interagieren muss. In diesem Artikel schlagen wir ein Selbst-Distillations-Framework vor, das darauf abzielt, das implizite 3D-Wissen in den Video-Diffusionsmodellen in eine explizite 3D-Gaussian-Splatting (3DGS)-Darstellung zu destillieren, wodurch die Notwendigkeit von Multi-View-Trainingsdaten entfällt. Konkret erweitern wir den typischen RGB-Decoder um einen 3DGS-Decoder, der durch die Ausgabe des RGB-Decoders überwacht wird. In diesem Ansatz kann der 3DGS-Decoder ausschließlich mit synthetischen Daten trainiert werden, die von Video-Diffusionsmodellen generiert werden. Zum Zeitpunkt der Inferenz kann unser Modell 3D-Szenen entweder aus einem Text-Prompt oder einem einzelnen Bild für das Echtzeit-Rendering synthetisieren. Unser Framework erweitert sich weiterhin auf die dynamische 3D-Szenengenerierung aus einem monokularen Eingabevideo. Experimentelle Ergebnisse zeigen, dass unser Framework Spitzenleistungen in der statischen und dynamischen 3D-Szenengenerierung erreicht.
English
The ability to generate virtual environments is crucial for applications
ranging from gaming to physical AI domains such as robotics, autonomous
driving, and industrial AI. Current learning-based 3D reconstruction methods
rely on the availability of captured real-world multi-view data, which is not
always readily available. Recent advancements in video diffusion models have
shown remarkable imagination capabilities, yet their 2D nature limits the
applications to simulation where a robot needs to navigate and interact with
the environment. In this paper, we propose a self-distillation framework that
aims to distill the implicit 3D knowledge in the video diffusion models into an
explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for
multi-view training data. Specifically, we augment the typical RGB decoder with
a 3DGS decoder, which is supervised by the output of the RGB decoder. In this
approach, the 3DGS decoder can be purely trained with synthetic data generated
by video diffusion models. At inference time, our model can synthesize 3D
scenes from either a text prompt or a single image for real-time rendering. Our
framework further extends to dynamic 3D scene generation from a monocular input
video. Experimental results show that our framework achieves state-of-the-art
performance in static and dynamic 3D scene generation.