MotionCanvas: Progettazione di inquadrature cinematografiche con generazione immagine-video controllabile

Abstract

Questo articolo presenta un metodo che consente agli utenti di progettare riprese video cinematografiche nel contesto della generazione di immagini a video. La progettazione delle riprese, un aspetto critico della produzione cinematografica, implica la pianificazione meticolosa dei movimenti della telecamera e degli oggetti in una scena. Tuttavia, abilitare una progettazione intuitiva delle riprese nei moderni sistemi di generazione di immagini a video presenta due principali sfide: innanzitutto, catturare efficacemente le intenzioni dell'utente sul design del movimento, dove sia i movimenti della telecamera che quelli degli oggetti nello spazio della scena devono essere specificati congiuntamente; e in secondo luogo, rappresentare informazioni sul movimento che possano essere utilizzate efficacemente da un modello di diffusione video per sintetizzare le animazioni delle immagini. Per affrontare queste sfide, introduciamo MotionCanvas, un metodo che integra controlli guidati dall'utente nei modelli di generazione di immagini a video, consentendo agli utenti di controllare sia i movimenti degli oggetti che della telecamera in modo consapevole della scena. Collegando le intuizioni della grafica informatica classica e le tecniche di generazione video contemporanee, dimostriamo la capacità di ottenere un controllo del movimento consapevole in 3D nella sintesi di immagini a video senza richiedere costosi dati di addestramento in 3D. MotionCanvas consente agli utenti di rappresentare intuitivamente le intenzioni di movimento nello spazio della scena e di tradurle in segnali di condizionamento del movimento spazio-temporale per i modelli di diffusione video. Dimostriamo l'efficacia del nostro metodo su una vasta gamma di contenuti di immagini del mondo reale e scenari di progettazione delle riprese, evidenziando il suo potenziale per migliorare i flussi di lavoro creativi nella creazione di contenuti digitali e adattarsi a varie applicazioni di modifica di immagini e video.

English

This paper presents a method that allows users to design cinematic video shots in the context of image-to-video generation. Shot design, a critical aspect of filmmaking, involves meticulously planning both camera movements and object motions in a scene. However, enabling intuitive shot design in modern image-to-video generation systems presents two main challenges: first, effectively capturing user intentions on the motion design, where both camera movements and scene-space object motions must be specified jointly; and second, representing motion information that can be effectively utilized by a video diffusion model to synthesize the image animations. To address these challenges, we introduce MotionCanvas, a method that integrates user-driven controls into image-to-video (I2V) generation models, allowing users to control both object and camera motions in a scene-aware manner. By connecting insights from classical computer graphics and contemporary video generation techniques, we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis without requiring costly 3D-related training data. MotionCanvas enables users to intuitively depict scene-space motion intentions, and translates them into spatiotemporal motion-conditioning signals for video diffusion models. We demonstrate the effectiveness of our method on a wide range of real-world image content and shot-design scenarios, highlighting its potential to enhance the creative workflows in digital content creation and adapt to various image and video editing applications.

MotionCanvas: Progettazione di inquadrature cinematografiche con generazione immagine-video controllabile

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

Abstract

Support