MotionCanvas: Kinoreife Aufnahmegestaltung mit steuerbarer Bild-zu-Video-Generierung
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation
February 6, 2025
Autoren: Jinbo Xing, Long Mai, Cusuh Ham, Jiahui Huang, Aniruddha Mahapatra, Chi-Wing Fu, Tien-Tsin Wong, Feng Liu
cs.AI
Zusammenfassung
Dieses Papier präsentiert eine Methode, die es Benutzern ermöglicht, kinematografische Videoszenen im Kontext der Bild-zu-Video-Erzeugung zu entwerfen. Die Szenengestaltung, ein entscheidender Aspekt der Filmproduktion, beinhaltet die akribische Planung sowohl der Kamerabewegungen als auch der Objektbewegungen in einer Szene. Die Ermöglichung einer intuitiven Szenengestaltung in modernen Bild-zu-Video-Erzeugungssystemen stellt jedoch zwei Hauptprobleme dar: Erstens die effektive Erfassung der Benutzerabsichten bei der Bewegungsgestaltung, bei der sowohl Kamerabewegungen als auch Objektbewegungen im Szenenraum gemeinsam spezifiziert werden müssen; und zweitens die Darstellung von Bewegungsinformationen, die von einem Video-Diffusionsmodell effektiv genutzt werden können, um die Bildanimationen zu synthetisieren. Um diesen Herausforderungen zu begegnen, führen wir MotionCanvas ein, eine Methode, die benutzerorientierte Steuerelemente in Bild-zu-Video (I2V)-Erzeugungsmodelle integriert, die es Benutzern ermöglichen, sowohl Objekt- als auch Kamerabewegungen auf eine szenenbewusste Weise zu steuern. Indem wir Erkenntnisse aus der klassischen Computergrafik und zeitgenössischen Videogenerierungstechniken verbinden, zeigen wir die Fähigkeit, eine 3D-bewusste Bewegungssteuerung in der I2V-Synthese zu erreichen, ohne aufwändige 3D-bezogene Trainingsdaten zu benötigen. MotionCanvas ermöglicht es Benutzern, Szenenraumbewegungsabsichten intuitiv darzustellen und sie in raumzeitliche Bewegungsbedingungssignale für Videodiffusionsmodelle zu übersetzen. Wir zeigen die Wirksamkeit unserer Methode an einer Vielzahl von realen Bildinhalten und Szenarien zur Szenengestaltung und heben ihr Potenzial zur Verbesserung der kreativen Workflows in der digitalen Inhaltsproduktion und zur Anpassung an verschiedene Bild- und Videobearbeitungsanwendungen hervor.
English
This paper presents a method that allows users to design cinematic video
shots in the context of image-to-video generation. Shot design, a critical
aspect of filmmaking, involves meticulously planning both camera movements and
object motions in a scene. However, enabling intuitive shot design in modern
image-to-video generation systems presents two main challenges: first,
effectively capturing user intentions on the motion design, where both camera
movements and scene-space object motions must be specified jointly; and second,
representing motion information that can be effectively utilized by a video
diffusion model to synthesize the image animations. To address these
challenges, we introduce MotionCanvas, a method that integrates user-driven
controls into image-to-video (I2V) generation models, allowing users to control
both object and camera motions in a scene-aware manner. By connecting insights
from classical computer graphics and contemporary video generation techniques,
we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis
without requiring costly 3D-related training data. MotionCanvas enables users
to intuitively depict scene-space motion intentions, and translates them into
spatiotemporal motion-conditioning signals for video diffusion models. We
demonstrate the effectiveness of our method on a wide range of real-world image
content and shot-design scenarios, highlighting its potential to enhance the
creative workflows in digital content creation and adapt to various image and
video editing applications.Summary
AI-Generated Summary