ViFeEdit: Беспроводной тюнер вашего видеодиффузионного трансформатора
ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer
March 16, 2026
Авторы: Ruonan Yu, Zhenxiong Tan, Zigeng Chen, Songhua Liu, Xinchao Wang
cs.AI
Аннотация
Диффузионные трансформаторы (DiT) продемонстрировали выдающуюся масштабируемость и качество в генерации изображений и видео, что вызывает растущий интерес к их применению для управляемой генерации и редактирования. Однако по сравнению с аналогами для изображений прогресс в области управления и редактирования видео остается ограниченным, в основном из-за нехватки парных видеоданных и высокой вычислительной стоимости обучения видеодиффузионных моделей. Чтобы решить эту проблему, в данной статье мы предлагаем фреймворк для настройки без использования видео, названный ViFeEdit, для видеодиффузионных трансформаторов. Не требуя данных видеотренировки в какой-либо форме, ViFeEdit достигает универсальной генерации и редактирования видео, адаптируясь исключительно с помощью 2D-изображений. В основе нашего подхода лежит архитектурная перепараметризация, которая разделяет пространственную независимость от полного 3D-внимания в современных видеодиффузионных трансформаторах. Это позволяет осуществлять визуально точное редактирование, сохраняя временную согласованность при добавлении лишь минимального количества дополнительных параметров. Более того, данная конструкция работает в двухпоточном конвейере с раздельными временными embedding-ами для расписания шума, демонстрируя высокую адаптивность к разнообразным conditioning-сигналам. Многочисленные эксперименты показывают, что наш метод обеспечивает перспективные результаты управляемой генерации и редактирования видео при обучении лишь на минимальном наборе данных 2D-изображений. Код доступен по адресу https://github.com/Lexie-YU/ViFeEdit.
English
Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.