MotionCanvas: Кинематографический дизайн кадра с возможностью управления преобразованием изображения в видео
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation
February 6, 2025
Авторы: Jinbo Xing, Long Mai, Cusuh Ham, Jiahui Huang, Aniruddha Mahapatra, Chi-Wing Fu, Tien-Tsin Wong, Feng Liu
cs.AI
Аннотация
Этот документ представляет метод, который позволяет пользователям создавать кинематографические видео кадры в контексте генерации изображения в видео. Проектирование кадра, критически важный аспект кинопроизводства, включает в себя тщательное планирование как движений камеры, так и движений объектов на сцене. Однако обеспечение интуитивного проектирования кадра в современных системах генерации изображения в видео представляет две основные проблемы: во-первых, эффективное улавливание намерений пользователя в дизайне движения, где необходимо совместно указывать как движения камеры, так и движения объектов в пространстве сцены; и во-вторых, представление информации о движении, которая может быть эффективно использована моделью диффузии видео для синтеза анимаций изображения. Для решения этих проблем мы представляем MotionCanvas, метод, который интегрирует управление, осуществляемое пользователем, в модели генерации изображения в видео (I2V), позволяя пользователям контролировать как движения объектов, так и камеры в осознанном образе на сцене. Соединяя идеи из классической компьютерной графики и современных техник генерации видео, мы демонстрируем способность достигать управления движением, осведомленным о 3D, в синтезе I2V без необходимости дорогостоящих тренировочных данных, связанных с 3D. MotionCanvas позволяет пользователям интуитивно изображать намерения движения в пространстве сцены и преобразовывать их в сигналы пространственно-временного условия для моделей диффузии видео. Мы демонстрируем эффективность нашего метода на широком спектре реального контента изображений и сценариев проектирования кадров, подчеркивая его потенциал улучшить творческие рабочие процессы в создании цифрового контента и приспособиться к различным приложениям по редактированию изображений и видео.
English
This paper presents a method that allows users to design cinematic video
shots in the context of image-to-video generation. Shot design, a critical
aspect of filmmaking, involves meticulously planning both camera movements and
object motions in a scene. However, enabling intuitive shot design in modern
image-to-video generation systems presents two main challenges: first,
effectively capturing user intentions on the motion design, where both camera
movements and scene-space object motions must be specified jointly; and second,
representing motion information that can be effectively utilized by a video
diffusion model to synthesize the image animations. To address these
challenges, we introduce MotionCanvas, a method that integrates user-driven
controls into image-to-video (I2V) generation models, allowing users to control
both object and camera motions in a scene-aware manner. By connecting insights
from classical computer graphics and contemporary video generation techniques,
we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis
without requiring costly 3D-related training data. MotionCanvas enables users
to intuitively depict scene-space motion intentions, and translates them into
spatiotemporal motion-conditioning signals for video diffusion models. We
demonstrate the effectiveness of our method on a wide range of real-world image
content and shot-design scenarios, highlighting its potential to enhance the
creative workflows in digital content creation and adapt to various image and
video editing applications.Summary
AI-Generated Summary