ViFeEdit: Un Sintonizzatore Senza Video per il Tuo Video Diffusion Transformer

Abstract

I Diffusion Transformer (DiT) hanno dimostrato una notevole scalabilità e qualità nella generazione di immagini e video, stimolando un crescente interesse per la loro estensione a compiti di generazione controllata e di editing. Tuttavia, rispetto alle controparti per le immagini, i progressi nel controllo e nell'editing video rimangono limitati, principalmente a causa della scarsità di dati video accoppiati e dell'elevato costo computazionale dell'addestramento di modelli di diffusione video. Per affrontare questo problema, in questo articolo, proponiamo un framework di tuning senza video, denominato ViFeEdit, per i diffusion transformer video. Senza richiedere alcuna forma di dati video di addestramento, ViFeEdit raggiunge una versatile generazione e modifica di video, adattandosi esclusivamente con immagini 2D. Il nucleo del nostro approccio è una riparametrizzazione architetturale che disaccoppia l'indipendenza spaziale dall'attenzione 3D completa nei moderni diffusion transformer video, il che consente un editing visivamente fedele mantenendo al contempo la coerenza temporale con solo parametri aggiuntivi minimi. Inoltre, questo design opera in una pipeline a doppio percorso con embedding del timestep separati per la schedulazione del rumore, mostrando una forte adattabilità a segnali di condizionamento diversificati. Esperimenti estensivi dimostrano che il nostro metodo fornisce risultati promettenti per la generazione e l'editing video controllabile con solo un addestramento minimo su dati di immagini 2D. I codici sono disponibili su https://github.com/Lexie-YU/ViFeEdit.

English

Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.

ViFeEdit: Un Sintonizzatore Senza Video per il Tuo Video Diffusion Transformer

ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

Abstract

Support