ChatPaper.aiChatPaper

EchoVideo: Generazione di Video Umani Preservanti l'Identità tramite Fusione di Caratteristiche Multimodali

EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion

January 23, 2025
Autori: Jiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo
cs.AI

Abstract

I recenti progressi nella generazione di video hanno avuto un impatto significativo su varie applicazioni successive, in particolare nella generazione di video che preservano l'identità (IPT2V). Tuttavia, i metodi esistenti faticano con artefatti di "copia e incolla" e problemi di bassa similarità, principalmente a causa della loro dipendenza dalle informazioni a basso livello delle immagini facciali. Questa dipendenza può portare a aspetti facciali rigidi e artefatti che riflettono dettagli non rilevanti. Per affrontare queste sfide, proponiamo EchoVideo, che utilizza due strategie chiave: (1) un Modulo di Fusione Immagine-Testo per l'Identità (IITF) che integra caratteristiche semantiche ad alto livello dal testo, catturando rappresentazioni pulite dell'identità facciale e scartando occlusioni, pose e variazioni di illuminazione per evitare l'introduzione di artefatti; (2) una strategia di addestramento a due fasi, che incorpora un metodo stocastico nella seconda fase per utilizzare casualmente informazioni facciali superficiali. L'obiettivo è bilanciare i miglioramenti nella fedeltà forniti dalle caratteristiche superficiali mitigando al contempo la dipendenza eccessiva da esse. Questa strategia incoraggia il modello a utilizzare caratteristiche ad alto livello durante l'addestramento, favorendo alla fine una rappresentazione più robusta delle identità facciali. EchoVideo preserva efficacemente le identità facciali e mantiene l'integrità del corpo intero. Estesi esperimenti dimostrano che ottiene eccellenti risultati nella generazione di video di alta qualità, controllabilità e fedeltà.
English
Recent advancements in video generation have significantly impacted various downstream applications, particularly in identity-preserving video generation (IPT2V). However, existing methods struggle with "copy-paste" artifacts and low similarity issues, primarily due to their reliance on low-level facial image information. This dependence can result in rigid facial appearances and artifacts reflecting irrelevant details. To address these challenges, we propose EchoVideo, which employs two key strategies: (1) an Identity Image-Text Fusion Module (IITF) that integrates high-level semantic features from text, capturing clean facial identity representations while discarding occlusions, poses, and lighting variations to avoid the introduction of artifacts; (2) a two-stage training strategy, incorporating a stochastic method in the second phase to randomly utilize shallow facial information. The objective is to balance the enhancements in fidelity provided by shallow features while mitigating excessive reliance on them. This strategy encourages the model to utilize high-level features during training, ultimately fostering a more robust representation of facial identities. EchoVideo effectively preserves facial identities and maintains full-body integrity. Extensive experiments demonstrate that it achieves excellent results in generating high-quality, controllability and fidelity videos.

Summary

AI-Generated Summary

PDF72January 24, 2025