MotionCanvas: Diseño de Toma Cinematográfica con Generación de Imagen a Video Controlable

Resumen

Este documento presenta un método que permite a los usuarios diseñar tomas de video cinematográfico en el contexto de la generación de imagen a video. El diseño de tomas, un aspecto crítico de la realización cinematográfica, implica planificar meticulosamente tanto los movimientos de cámara como los movimientos de objetos en una escena. Sin embargo, habilitar un diseño de tomas intuitivo en los sistemas modernos de generación de imagen a video presenta dos desafíos principales: primero, capturar efectivamente las intenciones del usuario sobre el diseño del movimiento, donde tanto los movimientos de cámara como los movimientos de objetos en el espacio de la escena deben especificarse conjuntamente; y segundo, representar información de movimiento que pueda ser utilizada efectivamente por un modelo de difusión de video para sintetizar las animaciones de imagen. Para abordar estos desafíos, presentamos MotionCanvas, un método que integra controles impulsados por el usuario en modelos de generación de imagen a video, permitiendo a los usuarios controlar tanto los movimientos de objetos como de cámara de manera consciente de la escena. Al conectar ideas de gráficos por computadora clásicos y técnicas contemporáneas de generación de video, demostramos la capacidad de lograr un control de movimiento consciente en 3D en la síntesis de imagen a video sin necesidad de datos de entrenamiento costosos relacionados con 3D. MotionCanvas permite a los usuarios representar de manera intuitiva las intenciones de movimiento en el espacio de la escena, y traducirlas en señales de condicionamiento de movimiento espacio-temporal para modelos de difusión de video. Demostramos la efectividad de nuestro método en una amplia gama de contenidos de imagen del mundo real y escenarios de diseño de tomas, resaltando su potencial para mejorar los flujos de trabajo creativos en la creación de contenido digital y adaptarse a diversas aplicaciones de edición de imagen y video.

English

This paper presents a method that allows users to design cinematic video shots in the context of image-to-video generation. Shot design, a critical aspect of filmmaking, involves meticulously planning both camera movements and object motions in a scene. However, enabling intuitive shot design in modern image-to-video generation systems presents two main challenges: first, effectively capturing user intentions on the motion design, where both camera movements and scene-space object motions must be specified jointly; and second, representing motion information that can be effectively utilized by a video diffusion model to synthesize the image animations. To address these challenges, we introduce MotionCanvas, a method that integrates user-driven controls into image-to-video (I2V) generation models, allowing users to control both object and camera motions in a scene-aware manner. By connecting insights from classical computer graphics and contemporary video generation techniques, we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis without requiring costly 3D-related training data. MotionCanvas enables users to intuitively depict scene-space motion intentions, and translates them into spatiotemporal motion-conditioning signals for video diffusion models. We demonstrate the effectiveness of our method on a wide range of real-world image content and shot-design scenarios, highlighting its potential to enhance the creative workflows in digital content creation and adapt to various image and video editing applications.

MotionCanvas: Diseño de Toma Cinematográfica con Generación de Imagen a Video Controlable

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

Resumen

Support