ChatPaper.aiChatPaper

Совмещение кросс-фреймовых представлений для тонкой настройки моделей диффузии видео

Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models

June 10, 2025
Авторы: Sungwon Hwang, Hyojin Jang, Kinam Kim, Minho Park, Jaegul choo
cs.AI

Аннотация

Точная настройка моделей видеодиффузии (Video Diffusion Models, VDMs) на уровне пользователя для генерации видео, отражающих специфические атрибуты обучающих данных, представляет собой значительные вызовы, однако остается недостаточно изученной, несмотря на ее практическую важность. В то же время недавние работы, такие как выравнивание представлений (Representation Alignment, REPA), показали перспективность в улучшении сходимости и качества моделей диффузии изображений на основе DiT за счет согласования или ассимиляции их внутренних скрытых состояний с внешними предобученными визуальными признаками, что указывает на их потенциал для точной настройки VDMs. В данной работе мы сначала предлагаем простое адаптирование REPA для VDMs и эмпирически показываем, что, хотя этот метод эффективен для сходимости, он неоптимален в сохранении семантической согласованности между кадрами. Для устранения этого ограничения мы представляем кросс-кадровое выравнивание представлений (Cross-frame Representation Alignment, CREPA), новую технику регуляризации, которая согласует скрытые состояния кадра с внешними признаками из соседних кадров. Эмпирические оценки на крупномасштабных VDMs, включая CogVideoX-5B и Hunyuan Video, демонстрируют, что CREPA улучшает как визуальную достоверность, так и кросс-кадровую семантическую согласованность при точной настройке с использованием параметрически эффективных методов, таких как LoRA. Мы также подтверждаем применимость CREPA на различных наборах данных с различными атрибутами, что подтверждает ее широкую применимость. Страница проекта: https://crepavideo.github.io
English
Fine-tuning Video Diffusion Models (VDMs) at the user level to generate videos that reflect specific attributes of training data presents notable challenges, yet remains underexplored despite its practical importance. Meanwhile, recent work such as Representation Alignment (REPA) has shown promise in improving the convergence and quality of DiT-based image diffusion models by aligning, or assimilating, its internal hidden states with external pretrained visual features, suggesting its potential for VDM fine-tuning. In this work, we first propose a straightforward adaptation of REPA for VDMs and empirically show that, while effective for convergence, it is suboptimal in preserving semantic consistency across frames. To address this limitation, we introduce Cross-frame Representation Alignment (CREPA), a novel regularization technique that aligns hidden states of a frame with external features from neighboring frames. Empirical evaluations on large-scale VDMs, including CogVideoX-5B and Hunyuan Video, demonstrate that CREPA improves both visual fidelity and cross-frame semantic coherence when fine-tuned with parameter-efficient methods such as LoRA. We further validate CREPA across diverse datasets with varying attributes, confirming its broad applicability. Project page: https://crepavideo.github.io
PDF32June 12, 2025