ChatPaper.aiChatPaper

VideoScene : Distillation d'un modèle de diffusion vidéo pour générer des scènes 3D en une seule étape

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

April 2, 2025
Auteurs: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI

Résumé

La reconstruction de scènes 3D à partir de vues éparses est une tâche complexe en raison de son caractère intrinsèquement mal posé. Les méthodes conventionnelles ont développé des solutions spécialisées (par exemple, la régularisation géométrique ou les modèles déterministes en feed-forward) pour atténuer ce problème. Cependant, elles souffrent toujours d'une dégradation des performances en cas de chevauchement minimal entre les vues d'entrée avec des informations visuelles insuffisantes. Heureusement, les modèles génératifs vidéo récents montrent des promesses pour relever ce défi, car ils sont capables de générer des clips vidéo avec des structures 3D plausibles. Soutenus par de grands modèles de diffusion vidéo pré-entraînés, certaines recherches pionnières commencent à explorer le potentiel du prior génératif vidéo et à créer des scènes 3D à partir de vues éparses. Malgré des améliorations impressionnantes, elles sont limitées par un temps d'inférence lent et l'absence de contraintes 3D, entraînant des inefficacités et des artefacts de reconstruction qui ne s'alignent pas avec la structure géométrique du monde réel. Dans cet article, nous proposons VideoScene pour distiller le modèle de diffusion vidéo afin de générer des scènes 3D en une seule étape, visant à construire un outil efficace et performant pour combler le fossé entre la vidéo et la 3D. Plus précisément, nous concevons une stratégie de distillation de flux de saut 3D pour sauter par-dessus les informations redondantes chronophages et entraînons un réseau de politique de débruitage dynamique pour déterminer de manière adaptative le pas de temps optimal de saut pendant l'inférence. Des expériences approfondies démontrent que notre VideoScene atteint des résultats de génération de scènes 3D plus rapides et supérieurs aux modèles de diffusion vidéo précédents, mettant en évidence son potentiel en tant qu'outil efficace pour les futures applications de conversion vidéo en 3D. Page du projet : https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its inherent ill-posed problem. Conventional methods have developed specialized solutions (e.g., geometry regularization or feed-forward deterministic model) to mitigate the issue. However, they still suffer from performance degradation by minimal overlap across input views with insufficient visual information. Fortunately, recent video generative models show promise in addressing this challenge as they are capable of generating video clips with plausible 3D structures. Powered by large pretrained video diffusion models, some pioneering research start to explore the potential of video generative prior and create 3D scenes from sparse views. Despite impressive improvements, they are limited by slow inference time and the lack of 3D constraint, leading to inefficiencies and reconstruction artifacts that do not align with real-world geometry structure. In this paper, we propose VideoScene to distill the video diffusion model to generate 3D scenes in one step, aiming to build an efficient and effective tool to bridge the gap from video to 3D. Specifically, we design a 3D-aware leap flow distillation strategy to leap over time-consuming redundant information and train a dynamic denoising policy network to adaptively determine the optimal leap timestep during inference. Extensive experiments demonstrate that our VideoScene achieves faster and superior 3D scene generation results than previous video diffusion models, highlighting its potential as an efficient tool for future video to 3D applications. Project Page: https://hanyang-21.github.io/VideoScene

Summary

AI-Generated Summary

PDF402April 3, 2025