Concat-ID: Naar universele identiteitsbehoudende videosynthese
Concat-ID: Towards Universal Identity-Preserving Video Synthesis
March 18, 2025
Auteurs: Yong Zhong, Zhuoyi Yang, Jiayan Teng, Xiaotao Gu, Chongxuan Li
cs.AI
Samenvatting
We presenteren Concat-ID, een uniform raamwerk voor identiteit-behoudende videogeneratie. Concat-ID maakt gebruik van Variational Autoencoders om beeldkenmerken te extraheren, die vervolgens worden samengevoegd met videolatenten langs de sequentiedimensie, waarbij uitsluitend 3D zelf-attentiemechanismen worden benut zonder de noodzaak voor aanvullende modules. Een nieuwe cross-video koppelingsstrategie en een meerfasig trainingsregime worden geïntroduceerd om een balans te vinden tussen identiteitsconsistentie en gezichtsbewerkbaarheid, terwijl de natuurlijkheid van de video wordt verbeterd. Uitgebreide experimenten tonen de superioriteit van Concat-ID aan ten opzichte van bestaande methoden in zowel enkelvoudige als meervoudige identiteitsgeneratie, evenals de naadloze schaalbaarheid naar scenario's met meerdere onderwerpen, waaronder virtuele passessies en achtergrond-controleerbare generatie. Concat-ID stelt een nieuwe standaard voor identiteit-behoudende videosynthese en biedt een veelzijdige en schaalbare oplossing voor een breed scala aan toepassingen.
English
We present Concat-ID, a unified framework for identity-preserving video
generation. Concat-ID employs Variational Autoencoders to extract image
features, which are concatenated with video latents along the sequence
dimension, leveraging solely 3D self-attention mechanisms without the need for
additional modules. A novel cross-video pairing strategy and a multi-stage
training regimen are introduced to balance identity consistency and facial
editability while enhancing video naturalness. Extensive experiments
demonstrate Concat-ID's superiority over existing methods in both single and
multi-identity generation, as well as its seamless scalability to multi-subject
scenarios, including virtual try-on and background-controllable generation.
Concat-ID establishes a new benchmark for identity-preserving video synthesis,
providing a versatile and scalable solution for a wide range of applications.Summary
AI-Generated Summary