Frame In-N-Out: Unbegrenzte kontrollierbare Bild-zu-Video-Generierung
Frame In-N-Out: Unbounded Controllable Image-to-Video Generation
May 27, 2025
Autoren: Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng
cs.AI
Zusammenfassung
Kontrollierbarkeit, zeitliche Kohärenz und Detailgenauigkeit bleiben die größten Herausforderungen bei der Videogenerierung. In diesem Artikel konzentrieren wir uns auf eine häufig verwendete, aber noch wenig erforschte filmische Technik, die als Frame In und Frame Out bekannt ist. Konkret ermöglichen wir, ausgehend von der Bild-zu-Video-Generierung, dass Benutzer die Objekte im Bild steuern können, um diese natürlich aus der Szene verschwinden zu lassen oder neue Identitätsreferenzen einzuführen, die in die Szene eintreten, geleitet durch benutzerdefinierte Bewegungsbahnen. Um diese Aufgabe zu unterstützen, stellen wir einen neuen, halbautomatisch kuratierten Datensatz vor, ein umfassendes Evaluationsprotokoll, das auf diese Anwendung zugeschnitten ist, sowie eine effiziente, identitätserhaltende und bewegungskontrollierbare Video-Diffusion-Transformer-Architektur. Unsere Auswertungen zeigen, dass unser vorgeschlagener Ansatz bestehende Baselines deutlich übertrifft.
English
Controllability, temporal coherence, and detail synthesis remain the most
critical challenges in video generation. In this paper, we focus on a commonly
used yet underexplored cinematic technique known as Frame In and Frame Out.
Specifically, starting from image-to-video generation, users can control the
objects in the image to naturally leave the scene or provide breaking new
identity references to enter the scene, guided by user-specified motion
trajectory. To support this task, we introduce a new dataset curated
semi-automatically, a comprehensive evaluation protocol targeting this setting,
and an efficient identity-preserving motion-controllable video Diffusion
Transformer architecture. Our evaluation shows that our proposed approach
significantly outperforms existing baselines.Summary
AI-Generated Summary