Frame In-N-Out: Generazione Illimitata e Controllabile di Video da Immagini
Frame In-N-Out: Unbounded Controllable Image-to-Video Generation
May 27, 2025
Autori: Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng
cs.AI
Abstract
La controllabilità, la coerenza temporale e la sintesi dei dettagli rimangono le sfide più critiche nella generazione di video. In questo articolo, ci concentriamo su una tecnica cinematografica comunemente utilizzata ma ancora poco esplorata, nota come Frame In e Frame Out. Nello specifico, partendo dalla generazione da immagine a video, gli utenti possono controllare gli oggetti nell'immagine per farli uscire naturalmente dalla scena o introdurre nuove identità di riferimento per farli entrare nella scena, guidati da una traiettoria di movimento specificata dall'utente. Per supportare questo compito, introduciamo un nuovo dataset curato in modo semi-automatico, un protocollo di valutazione completo mirato a questa impostazione e un'architettura efficiente di Diffusion Transformer per video con controllo del movimento e preservazione dell'identità. La nostra valutazione dimostra che l'approccio proposto supera significativamente i baseline esistenti.
English
Controllability, temporal coherence, and detail synthesis remain the most
critical challenges in video generation. In this paper, we focus on a commonly
used yet underexplored cinematic technique known as Frame In and Frame Out.
Specifically, starting from image-to-video generation, users can control the
objects in the image to naturally leave the scene or provide breaking new
identity references to enter the scene, guided by user-specified motion
trajectory. To support this task, we introduce a new dataset curated
semi-automatically, a comprehensive evaluation protocol targeting this setting,
and an efficient identity-preserving motion-controllable video Diffusion
Transformer architecture. Our evaluation shows that our proposed approach
significantly outperforms existing baselines.