ViFeEdit : Un adaptateur sans vidéo pour votre transformateur de diffusion vidéo

Résumé

Les Transformers de Diffusion (DiTs) ont démontré une scalabilité et une qualité remarquables dans la génération d'images et de vidéos, suscitant un intérêt croissant pour leur extension à des tâches de génération et d'édition contrôlées. Cependant, comparés à leurs équivalents pour l'image, les progrès dans le contrôle et l'édition vidéo restent limités, principalement en raison de la rareté des données vidéo appariées et du coût computationnel élevé de l'entraînement des modèles de diffusion vidéo. Pour résoudre ce problème, nous proposons dans cet article un cadre d'ajustement sans vidéo, nommé ViFeEdit, pour les transformers de diffusion vidéo. Sans nécessiter aucune forme de données vidéo d'entraînement, ViFeEdit réalise une génération et une édition vidéo polyvalentes, en s'adaptant uniquement avec des images 2D. Au cœur de notre approche se trouve une reparamétrisation architecturale qui découple l'indépendance spatiale de l'attention 3D complète dans les transformers de diffusion vidéo modernes. Cela permet une édition visuellement fidèle tout en maintenant la cohérence temporelle avec seulement des paramètres additionnels minimaux. De plus, cette conception fonctionne dans un pipeline à double voie avec des plongements de pas de temps distincts pour la planification du bruit, montrant une forte adaptabilité à divers signaux de conditionnement. Des expériences approfondies démontrent que notre méthode produit des résultats prometteurs en matière de génération et d'édition vidéo contrôlées avec un entraînement minimal sur des données d'images 2D. Les codes sont disponibles à l'adresse https://github.com/Lexie-YU/ViFeEdit.

English

Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.

ViFeEdit : Un adaptateur sans vidéo pour votre transformateur de diffusion vidéo

ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

Résumé

Support