ChatPaper.aiChatPaper

Lyra: Reconstrução Generativa de Cenas 3D via Modelo de Difusão de Vídeo com Auto-Distilação

Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

September 23, 2025
Autores: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI

Resumo

A capacidade de gerar ambientes virtuais é crucial para aplicações que vão desde jogos até domínios de IA física, como robótica, direção autônoma e IA industrial. Os métodos atuais de reconstrução 3D baseados em aprendizado dependem da disponibilidade de dados multivista capturados do mundo real, que nem sempre estão prontamente disponíveis. Avanços recentes em modelos de difusão de vídeo demonstraram capacidades impressionantes de imaginação, mas sua natureza 2D limita as aplicações em simulações onde um robô precisa navegar e interagir com o ambiente. Neste artigo, propomos um framework de autodistilação que visa destilar o conhecimento implícito 3D presente nos modelos de difusão de vídeo em uma representação explícita de 3D Gaussian Splatting (3DGS), eliminando a necessidade de dados multivista para treinamento. Especificamente, aumentamos o decodificador RGB típico com um decodificador 3DGS, que é supervisionado pela saída do decodificador RGB. Nessa abordagem, o decodificador 3DGS pode ser treinado exclusivamente com dados sintéticos gerados por modelos de difusão de vídeo. No momento da inferência, nosso modelo pode sintetizar cenas 3D a partir de um prompt de texto ou de uma única imagem para renderização em tempo real. Nosso framework ainda se estende para a geração dinâmica de cenas 3D a partir de um vídeo monocular de entrada. Resultados experimentais mostram que nosso framework alcança desempenho de ponta na geração de cenas 3D estáticas e dinâmicas.
English
The ability to generate virtual environments is crucial for applications ranging from gaming to physical AI domains such as robotics, autonomous driving, and industrial AI. Current learning-based 3D reconstruction methods rely on the availability of captured real-world multi-view data, which is not always readily available. Recent advancements in video diffusion models have shown remarkable imagination capabilities, yet their 2D nature limits the applications to simulation where a robot needs to navigate and interact with the environment. In this paper, we propose a self-distillation framework that aims to distill the implicit 3D knowledge in the video diffusion models into an explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for multi-view training data. Specifically, we augment the typical RGB decoder with a 3DGS decoder, which is supervised by the output of the RGB decoder. In this approach, the 3DGS decoder can be purely trained with synthetic data generated by video diffusion models. At inference time, our model can synthesize 3D scenes from either a text prompt or a single image for real-time rendering. Our framework further extends to dynamic 3D scene generation from a monocular input video. Experimental results show that our framework achieves state-of-the-art performance in static and dynamic 3D scene generation.
PDF224September 24, 2025