ChatPaper.aiChatPaper

VidCRAFT3: Управление камерой, объектами и освещением для генерации изображений в видеоформат.

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

February 11, 2025
Авторы: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI

Аннотация

Недавние методы генерации изображений в видео продемонстрировали успех в обеспечении контроля над одним или двумя визуальными элементами, такими как траектория камеры или движение объекта. Однако эти методы не могут обеспечить контроль над несколькими визуальными элементами из-за ограничений в данных и эффективности сети. В данной статье мы представляем VidCRAFT3, новую концепцию для точной генерации изображений в видео, которая позволяет одновременно контролировать движение камеры, движение объекта и направление освещения. Для более эффективного разделения контроля над каждым визуальным элементом мы предлагаем Пространственный Тройной-Внимательный Трансформер, интегрирующий направление освещения, текст и изображение симметричным образом. Поскольку большинство видеоданных из реального мира не содержат аннотаций по освещению, мы создаем высококачественный синтетический набор данных видео, названный VideoLightingDirection (VLD). Этот набор данных включает аннотации по направлению освещения и объекты с различным внешним видом, что позволяет VidCRAFT3 эффективно обрабатывать сильные эффекты преломления и отражения света. Кроме того, мы предлагаем трехэтапную стратегию обучения, которая устраняет необходимость в обучающих данных с аннотациями по нескольким визуальным элементам (движение камеры, движение объекта и направление освещения) одновременно. Обширные эксперименты на стандартных наборах данных демонстрируют эффективность VidCRAFT3 в создании видеоконтента высокого качества, превосходящего существующие передовые методы по показателям детализации контроля и визуальной последовательности. Весь код и данные будут общедоступны. Страница проекта: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in enabling control over one or two visual elements, such as camera trajectory or object motion. However, these methods are unable to offer control over multiple visual elements due to limitations in data and network efficacy. In this paper, we introduce VidCRAFT3, a novel framework for precise image-to-video generation that enables control over camera motion, object motion, and lighting direction simultaneously. To better decouple control over each visual element, we propose the Spatial Triple-Attention Transformer, which integrates lighting direction, text, and image in a symmetric way. Since most real-world video datasets lack lighting annotations, we construct a high-quality synthetic video dataset, the VideoLightingDirection (VLD) dataset. This dataset includes lighting direction annotations and objects of diverse appearance, enabling VidCRAFT3 to effectively handle strong light transmission and reflection effects. Additionally, we propose a three-stage training strategy that eliminates the need for training data annotated with multiple visual elements (camera motion, object motion, and lighting direction) simultaneously. Extensive experiments on benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing high-quality video content, surpassing existing state-of-the-art methods in terms of control granularity and visual coherence. All code and data will be publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.

Summary

AI-Generated Summary

PDF133February 12, 2025