ChatPaper.aiChatPaper

Cavia: Многопросмотровая видеодиффузия с управлением камерой и вниманием, интегрированным в просмотр.

Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention

October 14, 2024
Авторы: Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
cs.AI

Аннотация

В последние годы произошли значительные прорывы в генерации изображений в видео. Однако проблемы трехмерной согласованности и управляемости камеры сгенерированных кадров остаются нерешенными. Недавние исследования пытались внедрить управление камерой в процесс генерации, но их результаты часто ограничены простыми траекториями или не обладают способностью генерировать согласованные видео из различных траекторий камеры для одной и той же сцены. Для решения этих ограничений мы представляем Cavia, новую концепцию для генерации многокамерного видео с возможностью управления камерой, способную преобразовывать входное изображение в несколько пространственно-временно согласованных видео. Наша концепция расширяет модули пространственного и временного внимания до модулей интегрированного внимания к виду, улучшая как точку зрения, так и временную согласованность. Этот гибкий дизайн позволяет совместное обучение с разнообразными подготовленными источниками данных, включая статические видео на уровне сцены, синтетические динамические многокамерные видео на уровне объекта и динамические видео в реальном мире с монокулярной съемкой. На наш взгляд, Cavia является первым в своем роде, позволяющим пользователю точно указывать движение камеры при получении движения объекта. Обширные эксперименты показывают, что Cavia превосходит существующие методы как по геометрической согласованности, так и по качеству восприятия. Страница проекта: https://ir1d.github.io/Cavia/
English
In recent years there have been remarkable breakthroughs in image-to-video generation. However, the 3D consistency and camera controllability of generated frames have remained unsolved. Recent studies have attempted to incorporate camera control into the generation process, but their results are often limited to simple trajectories or lack the ability to generate consistent videos from multiple distinct camera paths for the same scene. To address these limitations, we introduce Cavia, a novel framework for camera-controllable, multi-view video generation, capable of converting an input image into multiple spatiotemporally consistent videos. Our framework extends the spatial and temporal attention modules into view-integrated attention modules, improving both viewpoint and temporal consistency. This flexible design allows for joint training with diverse curated data sources, including scene-level static videos, object-level synthetic multi-view dynamic videos, and real-world monocular dynamic videos. To our best knowledge, Cavia is the first of its kind that allows the user to precisely specify camera motion while obtaining object motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art methods in terms of geometric consistency and perceptual quality. Project Page: https://ir1d.github.io/Cavia/

Summary

AI-Generated Summary

PDF264November 16, 2024