Frame In-N-Out: Generazione Illimitata e Controllabile di Video da Immagini

Abstract

La controllabilità, la coerenza temporale e la sintesi dei dettagli rimangono le sfide più critiche nella generazione di video. In questo articolo, ci concentriamo su una tecnica cinematografica comunemente utilizzata ma ancora poco esplorata, nota come Frame In e Frame Out. Nello specifico, partendo dalla generazione da immagine a video, gli utenti possono controllare gli oggetti nell'immagine per farli uscire naturalmente dalla scena o introdurre nuove identità di riferimento per farli entrare nella scena, guidati da una traiettoria di movimento specificata dall'utente. Per supportare questo compito, introduciamo un nuovo dataset curato in modo semi-automatico, un protocollo di valutazione completo mirato a questa impostazione e un'architettura efficiente di Diffusion Transformer per video con controllo del movimento e preservazione dell'identità. La nostra valutazione dimostra che l'approccio proposto supera significativamente i baseline esistenti.

English

Controllability, temporal coherence, and detail synthesis remain the most critical challenges in video generation. In this paper, we focus on a commonly used yet underexplored cinematic technique known as Frame In and Frame Out. Specifically, starting from image-to-video generation, users can control the objects in the image to naturally leave the scene or provide breaking new identity references to enter the scene, guided by user-specified motion trajectory. To support this task, we introduce a new dataset curated semi-automatically, a comprehensive evaluation protocol targeting this setting, and an efficient identity-preserving motion-controllable video Diffusion Transformer architecture. Our evaluation shows that our proposed approach significantly outperforms existing baselines.

Frame In-N-Out: Generazione Illimitata e Controllabile di Video da Immagini

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

Abstract

Support