VideoScene: Destilando Modelos de Difusão de Vídeo para Gerar Cenas 3D em Um Único Passo
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
April 2, 2025
Autores: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI
Resumo
Recuperar cenas 3D a partir de visões esparsas é uma tarefa desafiadora devido ao seu problema inerentemente mal posto. Métodos convencionais desenvolveram soluções especializadas (por exemplo, regularização geométrica ou modelos determinísticos de avanço direto) para mitigar o problema. No entanto, eles ainda sofrem com a degradação de desempenho devido à sobreposição mínima entre as visões de entrada com informações visuais insuficientes. Felizmente, modelos recentes de geração de vídeo mostram potencial para abordar esse desafio, pois são capazes de gerar clipes de vídeo com estruturas 3D plausíveis. Impulsionados por grandes modelos de difusão de vídeo pré-treinados, algumas pesquisas pioneiras começaram a explorar o potencial do conhecimento prévio de geração de vídeo e criar cenas 3D a partir de visões esparsas. Apesar de melhorias impressionantes, eles são limitados pelo tempo de inferência lento e pela falta de restrições 3D, levando a ineficiências e artefatos de reconstrução que não se alinham com a estrutura geométrica do mundo real. Neste artigo, propomos o VideoScene para destilar o modelo de difusão de vídeo e gerar cenas 3D em uma única etapa, visando construir uma ferramenta eficiente e eficaz para preencher a lacuna entre vídeo e 3D. Especificamente, projetamos uma estratégia de destilação de fluxo de salto 3D para pular informações redundantes que consomem tempo e treinamos uma rede de política de remoção de ruído dinâmica para determinar adaptativamente o passo de tempo ideal durante a inferência. Experimentos extensivos demonstram que nosso VideoScene alcança resultados de geração de cenas 3D mais rápidos e superiores do que os modelos anteriores de difusão de vídeo, destacando seu potencial como uma ferramenta eficiente para futuras aplicações de vídeo para 3D. Página do Projeto: https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its
inherent ill-posed problem. Conventional methods have developed specialized
solutions (e.g., geometry regularization or feed-forward deterministic model)
to mitigate the issue. However, they still suffer from performance degradation
by minimal overlap across input views with insufficient visual information.
Fortunately, recent video generative models show promise in addressing this
challenge as they are capable of generating video clips with plausible 3D
structures. Powered by large pretrained video diffusion models, some pioneering
research start to explore the potential of video generative prior and create 3D
scenes from sparse views. Despite impressive improvements, they are limited by
slow inference time and the lack of 3D constraint, leading to inefficiencies
and reconstruction artifacts that do not align with real-world geometry
structure. In this paper, we propose VideoScene to distill the video diffusion
model to generate 3D scenes in one step, aiming to build an efficient and
effective tool to bridge the gap from video to 3D. Specifically, we design a
3D-aware leap flow distillation strategy to leap over time-consuming redundant
information and train a dynamic denoising policy network to adaptively
determine the optimal leap timestep during inference. Extensive experiments
demonstrate that our VideoScene achieves faster and superior 3D scene
generation results than previous video diffusion models, highlighting its
potential as an efficient tool for future video to 3D applications. Project
Page: https://hanyang-21.github.io/VideoSceneSummary
AI-Generated Summary