Alineación de Representaciones Intercuadros para el Ajuste Fino de Modelos de Difusión de Video
Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models
June 10, 2025
Autores: Sungwon Hwang, Hyojin Jang, Kinam Kim, Minho Park, Jaegul choo
cs.AI
Resumen
El ajuste fino de modelos de difusión de video (VDMs) a nivel de usuario para generar videos que reflejen atributos específicos de los datos de entrenamiento presenta desafíos notables, y sigue siendo un área poco explorada a pesar de su importancia práctica. Mientras tanto, trabajos recientes como Alineación de Representaciones (REPA) han mostrado promesa al mejorar la convergencia y calidad de modelos de difusión de imágenes basados en DiT, al alinear o asimilar sus estados ocultos internos con características visuales preentrenadas externas, lo que sugiere su potencial para el ajuste fino de VDMs. En este trabajo, primero proponemos una adaptación directa de REPA para VDMs y demostramos empíricamente que, aunque es efectivo para la convergencia, no es óptimo para preservar la consistencia semántica entre fotogramas. Para abordar esta limitación, introducimos Alineación de Representaciones entre Fotogramas (CREPA), una novedosa técnica de regularización que alinea los estados ocultos de un fotograma con características externas de fotogramas vecinos. Las evaluaciones empíricas en VDMs a gran escala, como CogVideoX-5B y Hunyuan Video, demuestran que CREPA mejora tanto la fidelidad visual como la coherencia semántica entre fotogramas cuando se ajusta con métodos eficientes en parámetros como LoRA. Además, validamos CREPA en diversos conjuntos de datos con atributos variados, confirmando su amplia aplicabilidad. Página del proyecto: https://crepavideo.github.io
English
Fine-tuning Video Diffusion Models (VDMs) at the user level to generate
videos that reflect specific attributes of training data presents notable
challenges, yet remains underexplored despite its practical importance.
Meanwhile, recent work such as Representation Alignment (REPA) has shown
promise in improving the convergence and quality of DiT-based image diffusion
models by aligning, or assimilating, its internal hidden states with external
pretrained visual features, suggesting its potential for VDM fine-tuning. In
this work, we first propose a straightforward adaptation of REPA for VDMs and
empirically show that, while effective for convergence, it is suboptimal in
preserving semantic consistency across frames. To address this limitation, we
introduce Cross-frame Representation Alignment (CREPA), a novel regularization
technique that aligns hidden states of a frame with external features from
neighboring frames. Empirical evaluations on large-scale VDMs, including
CogVideoX-5B and Hunyuan Video, demonstrate that CREPA improves both visual
fidelity and cross-frame semantic coherence when fine-tuned with
parameter-efficient methods such as LoRA. We further validate CREPA across
diverse datasets with varying attributes, confirming its broad applicability.
Project page: https://crepavideo.github.io