ChatPaper.aiChatPaper

VideoScene: ビデオ拡散モデルを蒸留してワンステップで3Dシーンを生成する

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

April 2, 2025
著者: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI

要旨

疎な視点から3Dシーンを復元することは、本質的に不良設定問題であるため困難な課題です。従来の手法では、この問題を緩和するために専門的な解決策(例えば、幾何学的正則化やフィードフォワード決定論的モデル)が開発されてきました。しかし、視覚情報が不十分な入力視点間の最小限の重なりによって、性能の低下が依然として生じています。幸いなことに、最近のビデオ生成モデルは、説得力のある3D構造を持つビデオクリップを生成できるため、この課題に取り組む可能性を示しています。大規模な事前学習済みビデオ拡散モデルを活用し、いくつかの先駆的な研究がビデオ生成の事前知識を探求し、疎な視点から3Dシーンを作成し始めています。印象的な改善が見られるものの、遅い推論時間と3D制約の欠如により、非効率性や現実世界の幾何学的構造に整合しない再構成アーティファクトが生じています。本論文では、ビデオ拡散モデルを蒸留して3Dシーンを一ステップで生成するVideoSceneを提案し、ビデオから3Dへのギャップを埋める効率的で効果的なツールを構築することを目指します。具体的には、時間のかかる冗長な情報を飛び越える3D対応のリープフロー蒸留戦略を設計し、推論中に最適なリープタイムステップを適応的に決定する動的ノイズ除去ポリシーネットワークを訓練します。広範な実験により、VideoSceneが従来のビデオ拡散モデルよりも高速かつ優れた3Dシーン生成結果を達成することが示され、将来のビデオから3Dへのアプリケーションにおける効率的なツールとしての可能性が強調されています。プロジェクトページ: https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its inherent ill-posed problem. Conventional methods have developed specialized solutions (e.g., geometry regularization or feed-forward deterministic model) to mitigate the issue. However, they still suffer from performance degradation by minimal overlap across input views with insufficient visual information. Fortunately, recent video generative models show promise in addressing this challenge as they are capable of generating video clips with plausible 3D structures. Powered by large pretrained video diffusion models, some pioneering research start to explore the potential of video generative prior and create 3D scenes from sparse views. Despite impressive improvements, they are limited by slow inference time and the lack of 3D constraint, leading to inefficiencies and reconstruction artifacts that do not align with real-world geometry structure. In this paper, we propose VideoScene to distill the video diffusion model to generate 3D scenes in one step, aiming to build an efficient and effective tool to bridge the gap from video to 3D. Specifically, we design a 3D-aware leap flow distillation strategy to leap over time-consuming redundant information and train a dynamic denoising policy network to adaptively determine the optimal leap timestep during inference. Extensive experiments demonstrate that our VideoScene achieves faster and superior 3D scene generation results than previous video diffusion models, highlighting its potential as an efficient tool for future video to 3D applications. Project Page: https://hanyang-21.github.io/VideoScene

Summary

AI-Generated Summary

PDF402April 3, 2025