ChatPaper.aiChatPaper

Frame In-N-Out : Génération illimitée et contrôlée d'images vers vidéo

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

May 27, 2025
Auteurs: Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng
cs.AI

Résumé

La contrôlabilité, la cohérence temporelle et la synthèse des détails restent les défis les plus critiques dans la génération de vidéos. Dans cet article, nous nous concentrons sur une technique cinématographique couramment utilisée mais peu explorée, connue sous le nom de "Frame In and Frame Out". Plus précisément, en partant de la génération d'images vers la vidéo, les utilisateurs peuvent contrôler les objets dans l'image pour qu'ils quittent naturellement la scène ou introduire de nouvelles références identitaires pour entrer dans la scène, guidés par une trajectoire de mouvement spécifiée par l'utilisateur. Pour soutenir cette tâche, nous introduisons un nouveau jeu de données organisé de manière semi-automatique, un protocole d'évaluation complet ciblant ce cadre, ainsi qu'une architecture efficace de Diffusion Transformer préservant l'identité et contrôlable en mouvement. Notre évaluation montre que notre approche proposée surpasse significativement les méthodes de référence existantes.
English
Controllability, temporal coherence, and detail synthesis remain the most critical challenges in video generation. In this paper, we focus on a commonly used yet underexplored cinematic technique known as Frame In and Frame Out. Specifically, starting from image-to-video generation, users can control the objects in the image to naturally leave the scene or provide breaking new identity references to enter the scene, guided by user-specified motion trajectory. To support this task, we introduce a new dataset curated semi-automatically, a comprehensive evaluation protocol targeting this setting, and an efficient identity-preserving motion-controllable video Diffusion Transformer architecture. Our evaluation shows that our proposed approach significantly outperforms existing baselines.

Summary

AI-Generated Summary

PDF152May 28, 2025