Frame In-N-Out : Génération illimitée et contrôlée d'images vers vidéo
Frame In-N-Out: Unbounded Controllable Image-to-Video Generation
May 27, 2025
Auteurs: Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng
cs.AI
Résumé
La contrôlabilité, la cohérence temporelle et la synthèse des détails restent les défis les plus critiques dans la génération de vidéos. Dans cet article, nous nous concentrons sur une technique cinématographique couramment utilisée mais peu explorée, connue sous le nom de "Frame In and Frame Out". Plus précisément, en partant de la génération d'images vers la vidéo, les utilisateurs peuvent contrôler les objets dans l'image pour qu'ils quittent naturellement la scène ou introduire de nouvelles références identitaires pour entrer dans la scène, guidés par une trajectoire de mouvement spécifiée par l'utilisateur. Pour soutenir cette tâche, nous introduisons un nouveau jeu de données organisé de manière semi-automatique, un protocole d'évaluation complet ciblant ce cadre, ainsi qu'une architecture efficace de Diffusion Transformer préservant l'identité et contrôlable en mouvement. Notre évaluation montre que notre approche proposée surpasse significativement les méthodes de référence existantes.
English
Controllability, temporal coherence, and detail synthesis remain the most
critical challenges in video generation. In this paper, we focus on a commonly
used yet underexplored cinematic technique known as Frame In and Frame Out.
Specifically, starting from image-to-video generation, users can control the
objects in the image to naturally leave the scene or provide breaking new
identity references to enter the scene, guided by user-specified motion
trajectory. To support this task, we introduce a new dataset curated
semi-automatically, a comprehensive evaluation protocol targeting this setting,
and an efficient identity-preserving motion-controllable video Diffusion
Transformer architecture. Our evaluation shows that our proposed approach
significantly outperforms existing baselines.Summary
AI-Generated Summary