ChatPaper.aiChatPaper

VideoScene: 비디오 확산 모델을 단일 단계로 증류하여 3D 장면 생성

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

April 2, 2025
저자: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI

초록

희소 뷰(sparse views)로부터 3D 장면을 복원하는 작업은 본질적으로 잘 정의되지 않은 문제(ill-posed problem)로 인해 어려운 과제입니다. 기존의 방법들은 이러한 문제를 완화하기 위해 특수화된 솔루션(예: 기하학적 정규화 또는 피드포워드 결정론적 모델)을 개발해 왔습니다. 그러나 이러한 방법들도 입력 뷰 간의 최소한의 중첩과 불충분한 시각 정보로 인해 성능 저하를 겪는 한계가 있습니다. 다행히 최근 비디오 생성 모델들은 그럴듯한 3D 구조를 가진 비디오 클립을 생성할 수 있는 능력으로 이 문제를 해결할 가능성을 보여주고 있습니다. 대규모 사전 학습된 비디오 확산 모델(video diffusion models)의 힘을 빌려, 일부 선구적인 연구들은 비디오 생성 사전 지식(video generative prior)의 잠재력을 탐구하고 희소 뷰로부터 3D 장면을 생성하기 시작했습니다. 이러한 연구들은 인상적인 개선을 이루었지만, 느린 추론 시간과 3D 제약의 부재로 인해 비효율성과 실제 세계의 기하학적 구조와 일치하지 않는 재구성 아티팩트(reconstruction artifacts)가 발생하는 한계가 있습니다. 본 논문에서는 비디오 확산 모델을 한 단계로 3D 장면을 생성하도록 정제(distill)하는 VideoScene을 제안하여, 비디오에서 3D로의 격차를 해결하기 위한 효율적이고 효과적인 도구를 구축하고자 합니다. 구체적으로, 우리는 시간 소모적인 중복 정보를 건너뛰기 위한 3D 인식 리프 플로우 정제(3D-aware leap flow distillation) 전략을 설계하고, 추론 중 최적의 리프 타임스텝(leap timestep)을 적응적으로 결정하기 위한 동적 노이즈 제거 정책 네트워크(dynamic denoising policy network)를 학습시킵니다. 광범위한 실험을 통해 우리의 VideoScene이 기존의 비디오 확산 모델보다 더 빠르고 우수한 3D 장면 생성 결과를 달성함을 입증하며, 이는 미래의 비디오에서 3D로의 응용을 위한 효율적인 도구로서의 잠재력을 강조합니다. 프로젝트 페이지: https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its inherent ill-posed problem. Conventional methods have developed specialized solutions (e.g., geometry regularization or feed-forward deterministic model) to mitigate the issue. However, they still suffer from performance degradation by minimal overlap across input views with insufficient visual information. Fortunately, recent video generative models show promise in addressing this challenge as they are capable of generating video clips with plausible 3D structures. Powered by large pretrained video diffusion models, some pioneering research start to explore the potential of video generative prior and create 3D scenes from sparse views. Despite impressive improvements, they are limited by slow inference time and the lack of 3D constraint, leading to inefficiencies and reconstruction artifacts that do not align with real-world geometry structure. In this paper, we propose VideoScene to distill the video diffusion model to generate 3D scenes in one step, aiming to build an efficient and effective tool to bridge the gap from video to 3D. Specifically, we design a 3D-aware leap flow distillation strategy to leap over time-consuming redundant information and train a dynamic denoising policy network to adaptively determine the optimal leap timestep during inference. Extensive experiments demonstrate that our VideoScene achieves faster and superior 3D scene generation results than previous video diffusion models, highlighting its potential as an efficient tool for future video to 3D applications. Project Page: https://hanyang-21.github.io/VideoScene

Summary

AI-Generated Summary

PDF402April 3, 2025