MotionCanvas: Diseño de Toma Cinematográfica con Generación de Imagen a Video Controlable
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation
February 6, 2025
Autores: Jinbo Xing, Long Mai, Cusuh Ham, Jiahui Huang, Aniruddha Mahapatra, Chi-Wing Fu, Tien-Tsin Wong, Feng Liu
cs.AI
Resumen
Este documento presenta un método que permite a los usuarios diseñar tomas de video cinematográfico en el contexto de la generación de imagen a video. El diseño de tomas, un aspecto crítico de la realización cinematográfica, implica planificar meticulosamente tanto los movimientos de cámara como los movimientos de objetos en una escena. Sin embargo, habilitar un diseño de tomas intuitivo en los sistemas modernos de generación de imagen a video presenta dos desafíos principales: primero, capturar efectivamente las intenciones del usuario sobre el diseño del movimiento, donde tanto los movimientos de cámara como los movimientos de objetos en el espacio de la escena deben especificarse conjuntamente; y segundo, representar información de movimiento que pueda ser utilizada efectivamente por un modelo de difusión de video para sintetizar las animaciones de imagen. Para abordar estos desafíos, presentamos MotionCanvas, un método que integra controles impulsados por el usuario en modelos de generación de imagen a video, permitiendo a los usuarios controlar tanto los movimientos de objetos como de cámara de manera consciente de la escena. Al conectar ideas de gráficos por computadora clásicos y técnicas contemporáneas de generación de video, demostramos la capacidad de lograr un control de movimiento consciente en 3D en la síntesis de imagen a video sin necesidad de datos de entrenamiento costosos relacionados con 3D. MotionCanvas permite a los usuarios representar de manera intuitiva las intenciones de movimiento en el espacio de la escena, y traducirlas en señales de condicionamiento de movimiento espacio-temporal para modelos de difusión de video. Demostramos la efectividad de nuestro método en una amplia gama de contenidos de imagen del mundo real y escenarios de diseño de tomas, resaltando su potencial para mejorar los flujos de trabajo creativos en la creación de contenido digital y adaptarse a diversas aplicaciones de edición de imagen y video.
English
This paper presents a method that allows users to design cinematic video
shots in the context of image-to-video generation. Shot design, a critical
aspect of filmmaking, involves meticulously planning both camera movements and
object motions in a scene. However, enabling intuitive shot design in modern
image-to-video generation systems presents two main challenges: first,
effectively capturing user intentions on the motion design, where both camera
movements and scene-space object motions must be specified jointly; and second,
representing motion information that can be effectively utilized by a video
diffusion model to synthesize the image animations. To address these
challenges, we introduce MotionCanvas, a method that integrates user-driven
controls into image-to-video (I2V) generation models, allowing users to control
both object and camera motions in a scene-aware manner. By connecting insights
from classical computer graphics and contemporary video generation techniques,
we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis
without requiring costly 3D-related training data. MotionCanvas enables users
to intuitively depict scene-space motion intentions, and translates them into
spatiotemporal motion-conditioning signals for video diffusion models. We
demonstrate the effectiveness of our method on a wide range of real-world image
content and shot-design scenarios, highlighting its potential to enhance the
creative workflows in digital content creation and adapt to various image and
video editing applications.Summary
AI-Generated Summary