VideoScene: Distilación de Modelos de Difusión de Video para Generar Escenas 3D en un Solo Paso
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
April 2, 2025
Autores: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI
Resumen
Recuperar escenas 3D a partir de vistas dispersas es una tarea desafiante debido a su naturaleza inherentemente mal planteada. Los métodos convencionales han desarrollado soluciones especializadas (por ejemplo, regularización geométrica o modelos determinísticos de avance) para mitigar este problema. Sin embargo, aún sufren de degradación en el rendimiento debido a la superposición mínima entre las vistas de entrada con información visual insuficiente. Afortunadamente, los modelos generativos de video recientes muestran potencial para abordar este desafío, ya que son capaces de generar clips de video con estructuras 3D plausibles. Impulsados por grandes modelos de difusión de video preentrenados, algunas investigaciones pioneras comienzan a explorar el potencial del conocimiento generativo de video y a crear escenas 3D a partir de vistas dispersas. A pesar de mejoras impresionantes, están limitados por un tiempo de inferencia lento y la falta de restricciones 3D, lo que lleva a ineficiencias y artefactos de reconstrucción que no se alinean con la estructura geométrica del mundo real. En este artículo, proponemos VideoScene para destilar el modelo de difusión de video y generar escenas 3D en un solo paso, con el objetivo de construir una herramienta eficiente y efectiva para cerrar la brecha entre el video y el 3D. Específicamente, diseñamos una estrategia de destilación de flujo de salto 3D consciente para saltar sobre información redundante que consume tiempo y entrenamos una red de políticas de eliminación de ruido dinámica para determinar de manera adaptativa el paso de tiempo óptimo durante la inferencia. Experimentos extensos demuestran que nuestro VideoScene logra resultados de generación de escenas 3D más rápidos y superiores que los modelos de difusión de video anteriores, destacando su potencial como una herramienta eficiente para futuras aplicaciones de video a 3D. Página del proyecto: https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its
inherent ill-posed problem. Conventional methods have developed specialized
solutions (e.g., geometry regularization or feed-forward deterministic model)
to mitigate the issue. However, they still suffer from performance degradation
by minimal overlap across input views with insufficient visual information.
Fortunately, recent video generative models show promise in addressing this
challenge as they are capable of generating video clips with plausible 3D
structures. Powered by large pretrained video diffusion models, some pioneering
research start to explore the potential of video generative prior and create 3D
scenes from sparse views. Despite impressive improvements, they are limited by
slow inference time and the lack of 3D constraint, leading to inefficiencies
and reconstruction artifacts that do not align with real-world geometry
structure. In this paper, we propose VideoScene to distill the video diffusion
model to generate 3D scenes in one step, aiming to build an efficient and
effective tool to bridge the gap from video to 3D. Specifically, we design a
3D-aware leap flow distillation strategy to leap over time-consuming redundant
information and train a dynamic denoising policy network to adaptively
determine the optimal leap timestep during inference. Extensive experiments
demonstrate that our VideoScene achieves faster and superior 3D scene
generation results than previous video diffusion models, highlighting its
potential as an efficient tool for future video to 3D applications. Project
Page: https://hanyang-21.github.io/VideoSceneSummary
AI-Generated Summary