EchoVideo: Generación de Video Humano Preservando la Identidad mediante Fusión de Características Multimodales
EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion
January 23, 2025
Autores: Jiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo
cs.AI
Resumen
Los avances recientes en la generación de videos han tenido un impacto significativo en diversas aplicaciones posteriores, especialmente en la generación de videos que preservan la identidad (IPT2V). Sin embargo, los métodos existentes tienen dificultades con artefactos de "copiar y pegar" y problemas de baja similitud, principalmente debido a su dependencia de información de imagen facial a bajo nivel. Esta dependencia puede resultar en apariencias faciales rígidas y artefactos que reflejan detalles irrelevantes. Para abordar estos desafíos, proponemos EchoVideo, que emplea dos estrategias clave: (1) un Módulo de Fusión de Imagen-Texto de Identidad (IITF) que integra características semánticas de alto nivel del texto, capturando representaciones limpias de la identidad facial mientras descarta oclusiones, posturas y variaciones de iluminación para evitar la introducción de artefactos; (2) una estrategia de entrenamiento de dos etapas, incorporando un método estocástico en la segunda fase para utilizar de forma aleatoria información facial superficial. El objetivo es equilibrar las mejoras en fidelidad proporcionadas por características superficiales mientras se mitiga la dependencia excesiva de ellas. Esta estrategia anima al modelo a utilizar características de alto nivel durante el entrenamiento, fomentando en última instancia una representación más robusta de las identidades faciales. EchoVideo preserva eficazmente las identidades faciales y mantiene la integridad del cuerpo completo. Experimentos extensos demuestran que logra excelentes resultados en la generación de videos de alta calidad, controlabilidad y fidelidad.
English
Recent advancements in video generation have significantly impacted various
downstream applications, particularly in identity-preserving video generation
(IPT2V). However, existing methods struggle with "copy-paste" artifacts and low
similarity issues, primarily due to their reliance on low-level facial image
information. This dependence can result in rigid facial appearances and
artifacts reflecting irrelevant details. To address these challenges, we
propose EchoVideo, which employs two key strategies: (1) an Identity Image-Text
Fusion Module (IITF) that integrates high-level semantic features from text,
capturing clean facial identity representations while discarding occlusions,
poses, and lighting variations to avoid the introduction of artifacts; (2) a
two-stage training strategy, incorporating a stochastic method in the second
phase to randomly utilize shallow facial information. The objective is to
balance the enhancements in fidelity provided by shallow features while
mitigating excessive reliance on them. This strategy encourages the model to
utilize high-level features during training, ultimately fostering a more robust
representation of facial identities. EchoVideo effectively preserves facial
identities and maintains full-body integrity. Extensive experiments demonstrate
that it achieves excellent results in generating high-quality, controllability
and fidelity videos.Summary
AI-Generated Summary