Lyra: Генеративная реконструкция 3D-сцен с использованием модели диффузии видео и метода самообучения
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
September 23, 2025
Авторы: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI
Аннотация
Способность создавать виртуальные среды имеет решающее значение для приложений, начиная от игр и заканчивая физическими областями ИИ, такими как робототехника, автономное вождение и промышленный ИИ. Современные методы 3D-реконструкции, основанные на обучении, зависят от наличия захваченных данных реального мира с нескольких ракурсов, которые не всегда доступны. Недавние достижения в области моделей диффузии видео продемонстрировали впечатляющие способности к генерации, однако их двумерная природа ограничивает применение в симуляциях, где роботу необходимо перемещаться и взаимодействовать с окружающей средой. В данной работе мы предлагаем фреймворк самообучения, который направлен на извлечение неявных 3D-знаний из моделей диффузии видео и их преобразование в явное представление 3D Gaussian Splatting (3DGS), устраняя необходимость в данных для обучения с нескольких ракурсов. В частности, мы дополняем стандартный RGB-декодер 3DGS-декодером, который обучается на основе выходных данных RGB-декодера. В этом подходе 3DGS-декодер может быть обучен исключительно на синтетических данных, сгенерированных моделями диффузии видео. На этапе вывода наша модель способна синтезировать 3D-сцены либо из текстового запроса, либо из одного изображения для рендеринга в реальном времени. Наш фреймворк также расширяется до генерации динамических 3D-сцен на основе монохромного входного видео. Экспериментальные результаты показывают, что наш фреймворк достигает наилучших показателей в генерации статических и динамических 3D-сцен.
English
The ability to generate virtual environments is crucial for applications
ranging from gaming to physical AI domains such as robotics, autonomous
driving, and industrial AI. Current learning-based 3D reconstruction methods
rely on the availability of captured real-world multi-view data, which is not
always readily available. Recent advancements in video diffusion models have
shown remarkable imagination capabilities, yet their 2D nature limits the
applications to simulation where a robot needs to navigate and interact with
the environment. In this paper, we propose a self-distillation framework that
aims to distill the implicit 3D knowledge in the video diffusion models into an
explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for
multi-view training data. Specifically, we augment the typical RGB decoder with
a 3DGS decoder, which is supervised by the output of the RGB decoder. In this
approach, the 3DGS decoder can be purely trained with synthetic data generated
by video diffusion models. At inference time, our model can synthesize 3D
scenes from either a text prompt or a single image for real-time rendering. Our
framework further extends to dynamic 3D scene generation from a monocular input
video. Experimental results show that our framework achieves state-of-the-art
performance in static and dynamic 3D scene generation.