Querrahmen-Repräsentationsausrichtung zur Feinabstimmung von Video-Diffusionsmodellen
Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models
June 10, 2025
Autoren: Sungwon Hwang, Hyojin Jang, Kinam Kim, Minho Park, Jaegul choo
cs.AI
Zusammenfassung
Das Feinabstimmen von Video-Diffusionsmodellen (VDMs) auf Benutzerebene, um Videos zu generieren, die spezifische Attribute der Trainingsdaten widerspiegeln, stellt beachtliche Herausforderungen dar und bleibt trotz seiner praktischen Bedeutung weitgehend unerforscht. In der Zwischenzeit hat aktuelle Forschung wie Representation Alignment (REPA) vielversprechende Ergebnisse bei der Verbesserung der Konvergenz und Qualität von DiT-basierten Bilddiffusionsmodellen gezeigt, indem die internen verborgenen Zustände mit externen vortrainierten visuellen Merkmalen abgeglichen oder assimiliert wurden, was auf sein Potenzial für die Feinabstimmung von VDMs hindeutet. In dieser Arbeit schlagen wir zunächst eine direkte Anpassung von REPA für VDMs vor und zeigen empirisch, dass es zwar effektiv für die Konvergenz ist, jedoch suboptimal in der Bewahrung der semantischen Konsistenz über Frames hinweg. Um diese Einschränkung zu überwinden, führen wir Cross-frame Representation Alignment (CREPA) ein, eine neuartige Regularisierungstechnik, die die verborgenen Zustände eines Frames mit externen Merkmalen aus benachbarten Frames abgleicht. Empirische Auswertungen an groß angelegten VDMs, einschließlich CogVideoX-5B und Hunyuan Video, demonstrieren, dass CREPA sowohl die visuelle Qualität als auch die semantische Kohärenz über Frames hinweg verbessert, wenn es mit parameter-effizienten Methoden wie LoRA feinabgestimmt wird. Wir validieren CREPA weiterhin über diverse Datensätze mit unterschiedlichen Attributen und bestätigen damit seine breite Anwendbarkeit. Projektseite: https://crepavideo.github.io
English
Fine-tuning Video Diffusion Models (VDMs) at the user level to generate
videos that reflect specific attributes of training data presents notable
challenges, yet remains underexplored despite its practical importance.
Meanwhile, recent work such as Representation Alignment (REPA) has shown
promise in improving the convergence and quality of DiT-based image diffusion
models by aligning, or assimilating, its internal hidden states with external
pretrained visual features, suggesting its potential for VDM fine-tuning. In
this work, we first propose a straightforward adaptation of REPA for VDMs and
empirically show that, while effective for convergence, it is suboptimal in
preserving semantic consistency across frames. To address this limitation, we
introduce Cross-frame Representation Alignment (CREPA), a novel regularization
technique that aligns hidden states of a frame with external features from
neighboring frames. Empirical evaluations on large-scale VDMs, including
CogVideoX-5B and Hunyuan Video, demonstrate that CREPA improves both visual
fidelity and cross-frame semantic coherence when fine-tuned with
parameter-efficient methods such as LoRA. We further validate CREPA across
diverse datasets with varying attributes, confirming its broad applicability.
Project page: https://crepavideo.github.io