RepVideo : Repenser la représentation inter-couches pour la génération de vidéos
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
Auteurs: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Résumé
La génération de vidéos a connu des progrès remarquables avec l'introduction des modèles de diffusion, qui ont considérablement amélioré la qualité des vidéos générées. Cependant, les recherches récentes se sont principalement concentrées sur l'augmentation de l'entraînement des modèles, tout en offrant des aperçus limités sur l'impact direct des représentations sur le processus de génération de vidéos. Dans cet article, nous examinons initialement les caractéristiques des éléments dans les couches intermédiaires, en trouvant des variations substantielles dans les cartes d'attention à travers différentes couches. Ces variations conduisent à des représentations sémantiques instables et contribuent aux différences cumulatives entre les éléments, ce qui réduit finalement la similarité entre les images adjacentes et affecte négativement la cohérence temporelle. Pour remédier à cela, nous proposons RepVideo, un cadre de représentation amélioré pour les modèles de diffusion texte-vidéo. En accumulant les éléments des couches voisines pour former des représentations enrichies, cette approche capture des informations sémantiques plus stables. Ces représentations améliorées sont ensuite utilisées comme entrées pour le mécanisme d'attention, améliorant ainsi l'expressivité sémantique tout en assurant la cohérence des éléments entre les images adjacentes. Des expériences approfondies démontrent que notre RepVideo améliore significativement la capacité de générer des apparences spatiales précises, telles que la capture de relations spatiales complexes entre plusieurs objets, tout en améliorant la cohérence temporelle dans la génération de vidéos.
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary