ChatPaper.aiChatPaper

MotionCanvas: Design de Tiro Cinematográfico com Geração de Imagem para Vídeo Controlável

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

February 6, 2025
Autores: Jinbo Xing, Long Mai, Cusuh Ham, Jiahui Huang, Aniruddha Mahapatra, Chi-Wing Fu, Tien-Tsin Wong, Feng Liu
cs.AI

Resumo

Este artigo apresenta um método que permite aos usuários projetar planos de vídeo cinematográfico no contexto da geração de imagem para vídeo. O design de plano, um aspecto crítico da produção cinematográfica, envolve o planejamento meticuloso dos movimentos da câmera e dos objetos em uma cena. No entanto, possibilitar um design de plano intuitivo em sistemas modernos de geração de imagem para vídeo apresenta dois desafios principais: primeiro, capturar efetivamente as intenções do usuário no design de movimento, onde tanto os movimentos da câmera quanto os movimentos dos objetos no espaço da cena devem ser especificados em conjunto; e segundo, representar informações de movimento que possam ser utilizadas de forma eficaz por um modelo de difusão de vídeo para sintetizar as animações de imagem. Para enfrentar esses desafios, introduzimos o MotionCanvas, um método que integra controles orientados pelo usuário em modelos de geração de imagem para vídeo, permitindo aos usuários controlar os movimentos tanto dos objetos quanto da câmera de maneira consciente da cena. Ao conectar insights da computação gráfica clássica e técnicas contemporâneas de geração de vídeo, demonstramos a capacidade de alcançar controle de movimento consciente do 3D na síntese de imagem para vídeo sem a necessidade de dados de treinamento 3D custosos. O MotionCanvas permite aos usuários representar intuitivamente as intenções de movimento no espaço da cena e traduzi-las em sinais de condicionamento de movimento espaço-temporal para modelos de difusão de vídeo. Demonstramos a eficácia de nosso método em uma ampla gama de conteúdos de imagem do mundo real e cenários de design de plano, destacando seu potencial para aprimorar os fluxos de trabalho criativos na criação de conteúdo digital e se adaptar a várias aplicações de edição de imagem e vídeo.
English
This paper presents a method that allows users to design cinematic video shots in the context of image-to-video generation. Shot design, a critical aspect of filmmaking, involves meticulously planning both camera movements and object motions in a scene. However, enabling intuitive shot design in modern image-to-video generation systems presents two main challenges: first, effectively capturing user intentions on the motion design, where both camera movements and scene-space object motions must be specified jointly; and second, representing motion information that can be effectively utilized by a video diffusion model to synthesize the image animations. To address these challenges, we introduce MotionCanvas, a method that integrates user-driven controls into image-to-video (I2V) generation models, allowing users to control both object and camera motions in a scene-aware manner. By connecting insights from classical computer graphics and contemporary video generation techniques, we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis without requiring costly 3D-related training data. MotionCanvas enables users to intuitively depict scene-space motion intentions, and translates them into spatiotemporal motion-conditioning signals for video diffusion models. We demonstrate the effectiveness of our method on a wide range of real-world image content and shot-design scenarios, highlighting its potential to enhance the creative workflows in digital content creation and adapt to various image and video editing applications.

Summary

AI-Generated Summary

PDF183February 7, 2025