Frame In-N-Out: Generación Ilimitada y Controlable de Imagen a Video
Frame In-N-Out: Unbounded Controllable Image-to-Video Generation
May 27, 2025
Autores: Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng
cs.AI
Resumen
La controlabilidad, la coherencia temporal y la síntesis de detalles siguen siendo los desafíos más críticos en la generación de videos. En este artículo, nos centramos en una técnica cinematográfica común pero poco explorada conocida como Frame In y Frame Out. Específicamente, partiendo de la generación de imagen a video, los usuarios pueden controlar los objetos en la imagen para que salgan de la escena de manera natural o proporcionar nuevas referencias de identidad para que entren en la escena, guiados por una trayectoria de movimiento especificada por el usuario. Para apoyar esta tarea, introducimos un nuevo conjunto de datos curado de manera semi-automática, un protocolo de evaluación integral dirigido a este escenario y una arquitectura eficiente de Transformador de Difusión para video con control de movimiento y preservación de identidad. Nuestra evaluación muestra que nuestro enfoque propuesto supera significativamente a los métodos existentes.
English
Controllability, temporal coherence, and detail synthesis remain the most
critical challenges in video generation. In this paper, we focus on a commonly
used yet underexplored cinematic technique known as Frame In and Frame Out.
Specifically, starting from image-to-video generation, users can control the
objects in the image to naturally leave the scene or provide breaking new
identity references to enter the scene, guided by user-specified motion
trajectory. To support this task, we introduce a new dataset curated
semi-automatically, a comprehensive evaluation protocol targeting this setting,
and an efficient identity-preserving motion-controllable video Diffusion
Transformer architecture. Our evaluation shows that our proposed approach
significantly outperforms existing baselines.Summary
AI-Generated Summary