SVG: Генерация трехмерного стереоскопического видео с помощью матрицы фреймов денойзинга
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
June 29, 2024
Авторы: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang
cs.AI
Аннотация
Модели генерации видео продемонстрировали впечатляющие возможности в создании впечатляющих монокулярных видео, однако генерация трехмерного стереоскопического видео остается мало исследованной. Мы предлагаем подход без учета позы и обучения для создания трехмерных стереоскопических видео с использованием готовой модели генерации монокулярного видео. Наш метод искажает сгенерированное монокулярное видео в камерные виды на стереоскопической базовой линии с использованием оцененной глубины видео и применяет новую рамочную матричную схему заполнения видео. Схема использует модель генерации видео для заполнения кадров, полученных из разных временных меток и видов. Этот эффективный подход генерирует согласованные и семантически согласованные стереоскопические видео без оптимизации сцены или тонкой настройки модели. Более того, мы разработали схему повторного внедрения границ дисоклюзии, которая дополнительно улучшает качество заполнения видео, смягчая негативные эффекты, распространяемые из областей дисоклюзии в скрытом пространстве. Мы подтверждаем эффективность нашего предложенного метода, проводя эксперименты на видео из различных генеративных моделей, включая Sora [4], Lumiere [2], WALT [8] и Zeroscope [42]. Эксперименты показывают, что наш метод имеет значительное улучшение по сравнению с предыдущими методами. Код будет опубликован на https://daipengwa.github.io/SVG_ProjectPage.
English
Video generation models have demonstrated great capabilities of producing
impressive monocular videos, however, the generation of 3D stereoscopic video
remains under-explored. We propose a pose-free and training-free approach for
generating 3D stereoscopic videos using an off-the-shelf monocular video
generation model. Our method warps a generated monocular video into camera
views on stereoscopic baseline using estimated video depth, and employs a novel
frame matrix video inpainting framework. The framework leverages the video
generation model to inpaint frames observed from different timestamps and
views. This effective approach generates consistent and semantically coherent
stereoscopic videos without scene optimization or model fine-tuning. Moreover,
we develop a disocclusion boundary re-injection scheme that further improves
the quality of video inpainting by alleviating the negative effects propagated
from disoccluded areas in the latent space. We validate the efficacy of our
proposed method by conducting experiments on videos from various generative
models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The
experiments demonstrate that our method has a significant improvement over
previous methods. The code will be released at
https://daipengwa.github.io/SVG_ProjectPage.Summary
AI-Generated Summary