VidCRAFT3: Управление камерой, объектами и освещением для генерации изображений в видеоформат.
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
February 11, 2025
Авторы: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI
Аннотация
Недавние методы генерации изображений в видео продемонстрировали успех в обеспечении контроля над одним или двумя визуальными элементами, такими как траектория камеры или движение объекта. Однако эти методы не могут обеспечить контроль над несколькими визуальными элементами из-за ограничений в данных и эффективности сети. В данной статье мы представляем VidCRAFT3, новую концепцию для точной генерации изображений в видео, которая позволяет одновременно контролировать движение камеры, движение объекта и направление освещения. Для более эффективного разделения контроля над каждым визуальным элементом мы предлагаем Пространственный Тройной-Внимательный Трансформер, интегрирующий направление освещения, текст и изображение симметричным образом. Поскольку большинство видеоданных из реального мира не содержат аннотаций по освещению, мы создаем высококачественный синтетический набор данных видео, названный VideoLightingDirection (VLD). Этот набор данных включает аннотации по направлению освещения и объекты с различным внешним видом, что позволяет VidCRAFT3 эффективно обрабатывать сильные эффекты преломления и отражения света. Кроме того, мы предлагаем трехэтапную стратегию обучения, которая устраняет необходимость в обучающих данных с аннотациями по нескольким визуальным элементам (движение камеры, движение объекта и направление освещения) одновременно. Обширные эксперименты на стандартных наборах данных демонстрируют эффективность VidCRAFT3 в создании видеоконтента высокого качества, превосходящего существующие передовые методы по показателям детализации контроля и визуальной последовательности. Весь код и данные будут общедоступны. Страница проекта: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in
enabling control over one or two visual elements, such as camera trajectory or
object motion. However, these methods are unable to offer control over multiple
visual elements due to limitations in data and network efficacy. In this paper,
we introduce VidCRAFT3, a novel framework for precise image-to-video generation
that enables control over camera motion, object motion, and lighting direction
simultaneously. To better decouple control over each visual element, we propose
the Spatial Triple-Attention Transformer, which integrates lighting direction,
text, and image in a symmetric way. Since most real-world video datasets lack
lighting annotations, we construct a high-quality synthetic video dataset, the
VideoLightingDirection (VLD) dataset. This dataset includes lighting direction
annotations and objects of diverse appearance, enabling VidCRAFT3 to
effectively handle strong light transmission and reflection effects.
Additionally, we propose a three-stage training strategy that eliminates the
need for training data annotated with multiple visual elements (camera motion,
object motion, and lighting direction) simultaneously. Extensive experiments on
benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing
high-quality video content, surpassing existing state-of-the-art methods in
terms of control granularity and visual coherence. All code and data will be
publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.Summary
AI-Generated Summary