MotionCanvas: Kinoreife Aufnahmegestaltung mit steuerbarer Bild-zu-Video-Generierung

papers.abstract

Dieses Papier präsentiert eine Methode, die es Benutzern ermöglicht, kinematografische Videoszenen im Kontext der Bild-zu-Video-Erzeugung zu entwerfen. Die Szenengestaltung, ein entscheidender Aspekt der Filmproduktion, beinhaltet die akribische Planung sowohl der Kamerabewegungen als auch der Objektbewegungen in einer Szene. Die Ermöglichung einer intuitiven Szenengestaltung in modernen Bild-zu-Video-Erzeugungssystemen stellt jedoch zwei Hauptprobleme dar: Erstens die effektive Erfassung der Benutzerabsichten bei der Bewegungsgestaltung, bei der sowohl Kamerabewegungen als auch Objektbewegungen im Szenenraum gemeinsam spezifiziert werden müssen; und zweitens die Darstellung von Bewegungsinformationen, die von einem Video-Diffusionsmodell effektiv genutzt werden können, um die Bildanimationen zu synthetisieren. Um diesen Herausforderungen zu begegnen, führen wir MotionCanvas ein, eine Methode, die benutzerorientierte Steuerelemente in Bild-zu-Video (I2V)-Erzeugungsmodelle integriert, die es Benutzern ermöglichen, sowohl Objekt- als auch Kamerabewegungen auf eine szenenbewusste Weise zu steuern. Indem wir Erkenntnisse aus der klassischen Computergrafik und zeitgenössischen Videogenerierungstechniken verbinden, zeigen wir die Fähigkeit, eine 3D-bewusste Bewegungssteuerung in der I2V-Synthese zu erreichen, ohne aufwändige 3D-bezogene Trainingsdaten zu benötigen. MotionCanvas ermöglicht es Benutzern, Szenenraumbewegungsabsichten intuitiv darzustellen und sie in raumzeitliche Bewegungsbedingungssignale für Videodiffusionsmodelle zu übersetzen. Wir zeigen die Wirksamkeit unserer Methode an einer Vielzahl von realen Bildinhalten und Szenarien zur Szenengestaltung und heben ihr Potenzial zur Verbesserung der kreativen Workflows in der digitalen Inhaltsproduktion und zur Anpassung an verschiedene Bild- und Videobearbeitungsanwendungen hervor.

English

This paper presents a method that allows users to design cinematic video shots in the context of image-to-video generation. Shot design, a critical aspect of filmmaking, involves meticulously planning both camera movements and object motions in a scene. However, enabling intuitive shot design in modern image-to-video generation systems presents two main challenges: first, effectively capturing user intentions on the motion design, where both camera movements and scene-space object motions must be specified jointly; and second, representing motion information that can be effectively utilized by a video diffusion model to synthesize the image animations. To address these challenges, we introduce MotionCanvas, a method that integrates user-driven controls into image-to-video (I2V) generation models, allowing users to control both object and camera motions in a scene-aware manner. By connecting insights from classical computer graphics and contemporary video generation techniques, we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis without requiring costly 3D-related training data. MotionCanvas enables users to intuitively depict scene-space motion intentions, and translates them into spatiotemporal motion-conditioning signals for video diffusion models. We demonstrate the effectiveness of our method on a wide range of real-world image content and shot-design scenarios, highlighting its potential to enhance the creative workflows in digital content creation and adapt to various image and video editing applications.

MotionCanvas: Kinoreife Aufnahmegestaltung mit steuerbarer Bild-zu-Video-Generierung

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

papers.abstract

Support