ViFeEdit: Um Sintonizador Livre de Vídeo para o Seu Transformador de Difusão de Vídeo

Resumo

Os Transformadores de Difusão (DiTs) demonstraram escalabilidade e qualidade notáveis na geração de imagens e vídeos, despertando crescente interesse na sua extensão para tarefas de geração e edição controladas. No entanto, em comparação com as suas contrapartes de imagem, o progresso no controle e edição de vídeo permanece limitado, principalmente devido à escassez de dados de vídeo emparelhados e ao alto custo computacional do treinamento de modelos de difusão de vídeo. Para resolver esta questão, propomos neste artigo uma estrutura de ajuste livre de vídeo denominada ViFeEdit para transformadores de difusão de vídeo. Sem exigir qualquer forma de dados de treinamento em vídeo, o ViFeEdit alcança geração e edição de vídeo versáteis, adaptadas apenas com imagens 2D. O cerne da nossa abordagem é uma reparametrização arquitetônica que desacopla a independência espacial da atenção 3D completa nos modernos transformadores de difusão de vídeo, o que permite uma edição visualmente fiel enquanto mantém a consistência temporal com apenas parâmetros adicionais mínimos. Além disso, este projeto opera num pipeline de duplo caminho com incorporações de *timestep* separadas para agendamento de ruído, exibindo forte adaptabilidade a diversos sinais de condicionamento. Experimentos extensivos demonstram que o nosso método produz resultados promissores de geração e edição de vídeo controlável com treinamento mínimo apenas em dados de imagem 2D. Os códigos estão disponíveis em https://github.com/Lexie-YU/ViFeEdit.

English

Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.

ViFeEdit: Um Sintonizador Livre de Vídeo para o Seu Transformador de Difusão de Vídeo

ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

Resumo

Support