Vid3D: 2D 비디오 확산 모델을 활용한 동적 3D 장면 합성
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion
June 17, 2024
저자: Rishab Parthasarathy, Zack Ankner, Aaron Gokaslan
cs.AI
초록
컴퓨터 비전의 최근 연구 동향 중 하나는 장면의 시간에 따라 변화하는 3차원 표현을 생성하는 3D 비디오 생성 작업입니다. 동적 3D 장면을 생성하기 위해 현재의 방법들은 시간과 장면의 다양한 시점에 걸친 일관성을 공동으로 최적화함으로써 3D 시간적 동역학을 명시적으로 모델링합니다. 본 논문에서는 이러한 기존 접근 방식과 달리, 시간에 걸친 다중 시점 일관성을 명시적으로 강제할 필요가 있는지, 아니면 각 시간 단계의 3D 표현을 독립적으로 생성하는 것으로 충분한지를 탐구합니다. 이를 위해 우리는 Vid3D라는 모델을 제안합니다. Vid3D는 2D 비디오 확산을 활용하여 먼저 비디오의 시간적 동역학을 나타내는 2D "시드"를 생성한 후, 이 시드 비디오의 각 시간 단계에 대해 독립적으로 3D 표현을 생성합니다. 우리는 Vid3D를 두 가지 최신 3D 비디오 생성 방법과 비교 평가한 결과, Vid3D가 3D 시간적 동역학을 명시적으로 모델링하지 않음에도 불구하고 비슷한 성능을 달성함을 확인했습니다. 또한, Vid3D의 품질이 프레임당 생성되는 시점의 수에 어떻게 의존하는지를 추가로 분석했습니다. 시점 수가 적을 경우 일부 품질 저하가 관찰되지만, 성능 저하는 미미한 수준으로 유지되었습니다. 따라서 우리의 결과는 고품질의 동적 3D 장면을 생성하는 데 3D 시간적 지식이 반드시 필요하지 않을 수 있음을 시사하며, 이는 이 작업을 위한 더 간단한 생성 알고리즘을 가능하게 할 잠재력을 가지고 있습니다.
English
A recent frontier in computer vision has been the task of 3D video
generation, which consists of generating a time-varying 3D representation of a
scene. To generate dynamic 3D scenes, current methods explicitly model 3D
temporal dynamics by jointly optimizing for consistency across both time and
views of the scene. In this paper, we instead investigate whether it is
necessary to explicitly enforce multiview consistency over time, as current
approaches do, or if it is sufficient for a model to generate 3D
representations of each timestep independently. We hence propose a model,
Vid3D, that leverages 2D video diffusion to generate 3D videos by first
generating a 2D "seed" of the video's temporal dynamics and then independently
generating a 3D representation for each timestep in the seed video. We evaluate
Vid3D against two state-of-the-art 3D video generation methods and find that
Vid3D is achieves comparable results despite not explicitly modeling 3D
temporal dynamics. We further ablate how the quality of Vid3D depends on the
number of views generated per frame. While we observe some degradation with
fewer views, performance degradation remains minor. Our results thus suggest
that 3D temporal knowledge may not be necessary to generate high-quality
dynamic 3D scenes, potentially enabling simpler generative algorithms for this
task.Summary
AI-Generated Summary