CamCo: Генерация видео изображений с помощью камеры с 3D-согласованием

Аннотация

Недавно модели видеораспространения стали выразительными генеративными инструментами для создания видеоконтента высокого качества, легко доступными для обычных пользователей. Однако эти модели часто не обеспечивают точного контроля над положением камеры для генерации видео, что ограничивает выразительность кинематографического языка и контроль пользователя. Для решения этой проблемы мы представляем CamCo, который позволяет осуществлять тонкий контроль положения камеры для генерации изображений в видео. Мы оснастили предварительно обученный генератор изображений в видео точно параметризованным вводом положения камеры с использованием координат Плюккера. Для улучшения трехмерной согласованности в создаваемых видео мы интегрировали модуль внимания к эпиполярной геометрии в каждый блок внимания, который накладывает эпиполярные ограничения на карты признаков. Кроме того, мы донастраиваем CamCo на реальных видеозаписях с оцененными положениями камеры через алгоритм структуры движения для лучшего синтеза движения объектов. Наши эксперименты показывают, что CamCo значительно улучшает трехмерную согласованность и возможности управления камерой по сравнению с предыдущими моделями, эффективно генерируя правдоподобное движение объектов. Страница проекта: https://ir1d.github.io/CamCo/

English

Recently video diffusion models have emerged as expressive generative tools for high-quality video content creation readily available to general users. However, these models often do not offer precise control over camera poses for video generation, limiting the expression of cinematic language and user control. To address this issue, we introduce CamCo, which allows fine-grained Camera pose Control for image-to-video generation. We equip a pre-trained image-to-video generator with accurately parameterized camera pose input using Pl\"ucker coordinates. To enhance 3D consistency in the videos produced, we integrate an epipolar attention module in each attention block that enforces epipolar constraints to the feature maps. Additionally, we fine-tune CamCo on real-world videos with camera poses estimated through structure-from-motion algorithms to better synthesize object motion. Our experiments show that CamCo significantly improves 3D consistency and camera control capabilities compared to previous models while effectively generating plausible object motion. Project page: https://ir1d.github.io/CamCo/

CamCo: Генерация видео изображений с помощью камеры с 3D-согласованием

CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

Аннотация

Support