CamCo: Генерация видео изображений с помощью камеры с 3D-согласованием
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation
June 4, 2024
Авторы: Dejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat
cs.AI
Аннотация
Недавно модели видеораспространения стали выразительными генеративными инструментами для создания видеоконтента высокого качества, легко доступными для обычных пользователей. Однако эти модели часто не обеспечивают точного контроля над положением камеры для генерации видео, что ограничивает выразительность кинематографического языка и контроль пользователя. Для решения этой проблемы мы представляем CamCo, который позволяет осуществлять тонкий контроль положения камеры для генерации изображений в видео. Мы оснастили предварительно обученный генератор изображений в видео точно параметризованным вводом положения камеры с использованием координат Плюккера. Для улучшения трехмерной согласованности в создаваемых видео мы интегрировали модуль внимания к эпиполярной геометрии в каждый блок внимания, который накладывает эпиполярные ограничения на карты признаков. Кроме того, мы донастраиваем CamCo на реальных видеозаписях с оцененными положениями камеры через алгоритм структуры движения для лучшего синтеза движения объектов. Наши эксперименты показывают, что CamCo значительно улучшает трехмерную согласованность и возможности управления камерой по сравнению с предыдущими моделями, эффективно генерируя правдоподобное движение объектов. Страница проекта: https://ir1d.github.io/CamCo/
English
Recently video diffusion models have emerged as expressive generative tools
for high-quality video content creation readily available to general users.
However, these models often do not offer precise control over camera poses for
video generation, limiting the expression of cinematic language and user
control. To address this issue, we introduce CamCo, which allows fine-grained
Camera pose Control for image-to-video generation. We equip a pre-trained
image-to-video generator with accurately parameterized camera pose input using
Pl\"ucker coordinates. To enhance 3D consistency in the videos produced, we
integrate an epipolar attention module in each attention block that enforces
epipolar constraints to the feature maps. Additionally, we fine-tune CamCo on
real-world videos with camera poses estimated through structure-from-motion
algorithms to better synthesize object motion. Our experiments show that CamCo
significantly improves 3D consistency and camera control capabilities compared
to previous models while effectively generating plausible object motion.
Project page: https://ir1d.github.io/CamCo/Summary
AI-Generated Summary