Frame In-N-Out: Unbegrenzte kontrollierbare Bild-zu-Video-Generierung

papers.abstract

Kontrollierbarkeit, zeitliche Kohärenz und Detailgenauigkeit bleiben die größten Herausforderungen bei der Videogenerierung. In diesem Artikel konzentrieren wir uns auf eine häufig verwendete, aber noch wenig erforschte filmische Technik, die als Frame In und Frame Out bekannt ist. Konkret ermöglichen wir, ausgehend von der Bild-zu-Video-Generierung, dass Benutzer die Objekte im Bild steuern können, um diese natürlich aus der Szene verschwinden zu lassen oder neue Identitätsreferenzen einzuführen, die in die Szene eintreten, geleitet durch benutzerdefinierte Bewegungsbahnen. Um diese Aufgabe zu unterstützen, stellen wir einen neuen, halbautomatisch kuratierten Datensatz vor, ein umfassendes Evaluationsprotokoll, das auf diese Anwendung zugeschnitten ist, sowie eine effiziente, identitätserhaltende und bewegungskontrollierbare Video-Diffusion-Transformer-Architektur. Unsere Auswertungen zeigen, dass unser vorgeschlagener Ansatz bestehende Baselines deutlich übertrifft.

English

Controllability, temporal coherence, and detail synthesis remain the most critical challenges in video generation. In this paper, we focus on a commonly used yet underexplored cinematic technique known as Frame In and Frame Out. Specifically, starting from image-to-video generation, users can control the objects in the image to naturally leave the scene or provide breaking new identity references to enter the scene, guided by user-specified motion trajectory. To support this task, we introduce a new dataset curated semi-automatically, a comprehensive evaluation protocol targeting this setting, and an efficient identity-preserving motion-controllable video Diffusion Transformer architecture. Our evaluation shows that our proposed approach significantly outperforms existing baselines.

Frame In-N-Out: Unbegrenzte kontrollierbare Bild-zu-Video-Generierung

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

papers.abstract

Support