ChatPaper.aiChatPaper

Alignement des représentations inter-cadres pour le réglage fin des modèles de diffusion vidéo

Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models

June 10, 2025
Auteurs: Sungwon Hwang, Hyojin Jang, Kinam Kim, Minho Park, Jaegul choo
cs.AI

Résumé

L'ajustement fin des modèles de diffusion vidéo (VDMs) au niveau de l'utilisateur pour générer des vidéos reflétant des attributs spécifiques des données d'entraînement présente des défis notables, tout en restant sous-exploré malgré son importance pratique. Par ailleurs, des travaux récents tels que l'alignement des représentations (REPA) ont montré des résultats prometteurs pour améliorer la convergence et la qualité des modèles de diffusion d'images basés sur DiT en alignant, ou en assimilant, leurs états cachés internes avec des caractéristiques visuelles pré-entraînées externes, suggérant ainsi son potentiel pour l'ajustement fin des VDMs. Dans ce travail, nous proposons d'abord une adaptation directe de REPA pour les VDMs et démontrons empiriquement que, bien qu'efficace pour la convergence, il est sous-optimal pour préserver la cohérence sémantique entre les images. Pour remédier à cette limitation, nous introduisons l'alignement des représentations inter-images (CREPA), une nouvelle technique de régularisation qui aligne les états cachés d'une image avec des caractéristiques externes provenant d'images voisines. Les évaluations empiriques sur des VDMs à grande échelle, tels que CogVideoX-5B et Hunyuan Video, montrent que CREPA améliore à la fois la fidélité visuelle et la cohérence sémantique inter-images lors de l'ajustement fin avec des méthodes paramétriquement efficaces comme LoRA. Nous validons en outre CREPA sur divers ensembles de données présentant des attributs variés, confirmant ainsi son applicabilité large. Page du projet : https://crepavideo.github.io
English
Fine-tuning Video Diffusion Models (VDMs) at the user level to generate videos that reflect specific attributes of training data presents notable challenges, yet remains underexplored despite its practical importance. Meanwhile, recent work such as Representation Alignment (REPA) has shown promise in improving the convergence and quality of DiT-based image diffusion models by aligning, or assimilating, its internal hidden states with external pretrained visual features, suggesting its potential for VDM fine-tuning. In this work, we first propose a straightforward adaptation of REPA for VDMs and empirically show that, while effective for convergence, it is suboptimal in preserving semantic consistency across frames. To address this limitation, we introduce Cross-frame Representation Alignment (CREPA), a novel regularization technique that aligns hidden states of a frame with external features from neighboring frames. Empirical evaluations on large-scale VDMs, including CogVideoX-5B and Hunyuan Video, demonstrate that CREPA improves both visual fidelity and cross-frame semantic coherence when fine-tuned with parameter-efficient methods such as LoRA. We further validate CREPA across diverse datasets with varying attributes, confirming its broad applicability. Project page: https://crepavideo.github.io
PDF32June 12, 2025