Querrahmen-Repräsentationsausrichtung zur Feinabstimmung von Video-Diffusionsmodellen

papers.abstract

Das Feinabstimmen von Video-Diffusionsmodellen (VDMs) auf Benutzerebene, um Videos zu generieren, die spezifische Attribute der Trainingsdaten widerspiegeln, stellt beachtliche Herausforderungen dar und bleibt trotz seiner praktischen Bedeutung weitgehend unerforscht. In der Zwischenzeit hat aktuelle Forschung wie Representation Alignment (REPA) vielversprechende Ergebnisse bei der Verbesserung der Konvergenz und Qualität von DiT-basierten Bilddiffusionsmodellen gezeigt, indem die internen verborgenen Zustände mit externen vortrainierten visuellen Merkmalen abgeglichen oder assimiliert wurden, was auf sein Potenzial für die Feinabstimmung von VDMs hindeutet. In dieser Arbeit schlagen wir zunächst eine direkte Anpassung von REPA für VDMs vor und zeigen empirisch, dass es zwar effektiv für die Konvergenz ist, jedoch suboptimal in der Bewahrung der semantischen Konsistenz über Frames hinweg. Um diese Einschränkung zu überwinden, führen wir Cross-frame Representation Alignment (CREPA) ein, eine neuartige Regularisierungstechnik, die die verborgenen Zustände eines Frames mit externen Merkmalen aus benachbarten Frames abgleicht. Empirische Auswertungen an groß angelegten VDMs, einschließlich CogVideoX-5B und Hunyuan Video, demonstrieren, dass CREPA sowohl die visuelle Qualität als auch die semantische Kohärenz über Frames hinweg verbessert, wenn es mit parameter-effizienten Methoden wie LoRA feinabgestimmt wird. Wir validieren CREPA weiterhin über diverse Datensätze mit unterschiedlichen Attributen und bestätigen damit seine breite Anwendbarkeit. Projektseite: https://crepavideo.github.io

English

Fine-tuning Video Diffusion Models (VDMs) at the user level to generate videos that reflect specific attributes of training data presents notable challenges, yet remains underexplored despite its practical importance. Meanwhile, recent work such as Representation Alignment (REPA) has shown promise in improving the convergence and quality of DiT-based image diffusion models by aligning, or assimilating, its internal hidden states with external pretrained visual features, suggesting its potential for VDM fine-tuning. In this work, we first propose a straightforward adaptation of REPA for VDMs and empirically show that, while effective for convergence, it is suboptimal in preserving semantic consistency across frames. To address this limitation, we introduce Cross-frame Representation Alignment (CREPA), a novel regularization technique that aligns hidden states of a frame with external features from neighboring frames. Empirical evaluations on large-scale VDMs, including CogVideoX-5B and Hunyuan Video, demonstrate that CREPA improves both visual fidelity and cross-frame semantic coherence when fine-tuned with parameter-efficient methods such as LoRA. We further validate CREPA across diverse datasets with varying attributes, confirming its broad applicability. Project page: https://crepavideo.github.io

Querrahmen-Repräsentationsausrichtung zur Feinabstimmung von Video-Diffusionsmodellen

Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models

papers.abstract

Support