VideoScene: Дистилляция модели диффузии видео для генерации 3D-сцен за один шаг
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
April 2, 2025
Авторы: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI
Аннотация
Восстановление 3D-сцен по разреженным видам является сложной задачей из-за её изначально некорректной постановки. Традиционные методы разработали специализированные решения (например, геометрическую регуляризацию или детерминированные модели прямого распространения), чтобы смягчить эту проблему. Однако они всё ещё сталкиваются с ухудшением производительности при минимальном перекрытии входных видов с недостаточной визуальной информацией. К счастью, современные модели генерации видео демонстрируют потенциал в решении этой задачи, так как они способны создавать видеоклипы с правдоподобными 3D-структурами. Благодаря использованию крупных предобученных моделей диффузии видео, некоторые передовые исследования начинают изучать потенциал генеративного приоритета видео и создавать 3D-сцены по разреженным видам. Несмотря на впечатляющие улучшения, они ограничены медленным временем вывода и отсутствием 3D-ограничений, что приводит к неэффективности и артефактам реконструкции, не соответствующим реальной геометрической структуре. В данной статье мы предлагаем VideoScene для дистилляции модели диффузии видео с целью генерации 3D-сцен за один шаг, стремясь создать эффективный инструмент для преодоления разрыва между видео и 3D. В частности, мы разрабатываем стратегию дистилляции 3D-осознанного скачка потока, чтобы пропустить избыточную информацию, требующую времени, и обучаем динамическую сеть политики шумоподавления для адаптивного определения оптимального шага скачка во время вывода. Многочисленные эксперименты демонстрируют, что наш VideoScene достигает более быстрых и качественных результатов генерации 3D-сцен по сравнению с предыдущими моделями диффузии видео, подчеркивая его потенциал как эффективного инструмента для будущих приложений преобразования видео в 3D. Страница проекта: https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its
inherent ill-posed problem. Conventional methods have developed specialized
solutions (e.g., geometry regularization or feed-forward deterministic model)
to mitigate the issue. However, they still suffer from performance degradation
by minimal overlap across input views with insufficient visual information.
Fortunately, recent video generative models show promise in addressing this
challenge as they are capable of generating video clips with plausible 3D
structures. Powered by large pretrained video diffusion models, some pioneering
research start to explore the potential of video generative prior and create 3D
scenes from sparse views. Despite impressive improvements, they are limited by
slow inference time and the lack of 3D constraint, leading to inefficiencies
and reconstruction artifacts that do not align with real-world geometry
structure. In this paper, we propose VideoScene to distill the video diffusion
model to generate 3D scenes in one step, aiming to build an efficient and
effective tool to bridge the gap from video to 3D. Specifically, we design a
3D-aware leap flow distillation strategy to leap over time-consuming redundant
information and train a dynamic denoising policy network to adaptively
determine the optimal leap timestep during inference. Extensive experiments
demonstrate that our VideoScene achieves faster and superior 3D scene
generation results than previous video diffusion models, highlighting its
potential as an efficient tool for future video to 3D applications. Project
Page: https://hanyang-21.github.io/VideoSceneSummary
AI-Generated Summary