RepVideo: Repensando la Representación entre Capas para la Generación de Video
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
Autores: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Resumen
La generación de videos ha logrado un progreso notable con la introducción de modelos de difusión, los cuales han mejorado significativamente la calidad de los videos generados. Sin embargo, la investigación reciente se ha centrado principalmente en escalar el entrenamiento del modelo, ofreciendo insights limitados sobre el impacto directo de las representaciones en el proceso de generación de videos. En este documento, investigamos inicialmente las características de las características en capas intermedias, encontrando variaciones sustanciales en los mapas de atención entre diferentes capas. Estas variaciones conducen a representaciones semánticas inestables y contribuyen a diferencias acumulativas entre características, lo que finalmente reduce la similitud entre fotogramas adyacentes y afecta negativamente la coherencia temporal. Para abordar esto, proponemos RepVideo, un marco de representación mejorado para modelos de difusión de texto a video. Al acumular características de capas vecinas para formar representaciones enriquecidas, este enfoque captura información semántica más estable. Estas representaciones mejoradas se utilizan luego como entradas al mecanismo de atención, mejorando así la expresividad semántica y asegurando la consistencia de características entre fotogramas adyacentes. Experimentos extensos demuestran que nuestro RepVideo no solo mejora significativamente la capacidad de generar apariencias espaciales precisas, como capturar relaciones espaciales complejas entre múltiples objetos, sino que también mejora la consistencia temporal en la generación de videos.
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary