ViFeEdit: Un Sintonizador Libre de Video para su Transformador de Difusión de Video
ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer
March 16, 2026
Autores: Ruonan Yu, Zhenxiong Tan, Zigeng Chen, Songhua Liu, Xinchao Wang
cs.AI
Resumen
Los Transformadores de Difusión (DiT) han demostrado una escalabilidad y calidad notables en la generación de imágenes y vídeos, lo que ha despertado un creciente interés por extenderlos a tareas de generación y edición controladas. Sin embargo, en comparación con sus homólogos para imágenes, el progreso en el control y edición de vídeo sigue siendo limitado, debido principalmente a la escasez de datos de vídeo emparejados y al alto coste computacional del entrenamiento de modelos de difusión de vídeo. Para abordar este problema, en este artículo proponemos un marco de ajuste sin vídeo denominado ViFeEdit para transformadores de difusión de vídeo. Sin requerir ninguna forma de datos de vídeo de entrenamiento, ViFeEdit logra una generación y edición de vídeo versátil, adaptándose únicamente con imágenes 2D. El núcleo de nuestro enfoque es una reparametrización arquitectónica que desacopla la independencia espacial de la atención 3D completa en los modernos transformadores de difusión de vídeo, lo que permite una edición visualmente fiel manteniendo la coherencia temporal con solo parámetros adicionales mínimos. Además, este diseño opera en una canalización de doble vía con incrustaciones de paso de tiempo separadas para la programación del ruido, mostrando una fuerte adaptabilidad a diversas señales de condicionamiento. Experimentos exhaustivos demuestran que nuestro método ofrece resultados prometedores de generación y edición de vídeo controlable con solo un entrenamiento mínimo en datos de imágenes 2D. El código está disponible en https://github.com/Lexie-YU/ViFeEdit.
English
Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.