ChatPaper.aiChatPaper

Concat-ID: Naar universele identiteitsbehoudende videosynthese

Concat-ID: Towards Universal Identity-Preserving Video Synthesis

March 18, 2025
Auteurs: Yong Zhong, Zhuoyi Yang, Jiayan Teng, Xiaotao Gu, Chongxuan Li
cs.AI

Samenvatting

We presenteren Concat-ID, een uniform raamwerk voor identiteit-behoudende videogeneratie. Concat-ID maakt gebruik van Variational Autoencoders om beeldkenmerken te extraheren, die vervolgens worden samengevoegd met videolatenten langs de sequentiedimensie, waarbij uitsluitend 3D zelf-attentiemechanismen worden benut zonder de noodzaak voor aanvullende modules. Een nieuwe cross-video koppelingsstrategie en een meerfasig trainingsregime worden geïntroduceerd om een balans te vinden tussen identiteitsconsistentie en gezichtsbewerkbaarheid, terwijl de natuurlijkheid van de video wordt verbeterd. Uitgebreide experimenten tonen de superioriteit van Concat-ID aan ten opzichte van bestaande methoden in zowel enkelvoudige als meervoudige identiteitsgeneratie, evenals de naadloze schaalbaarheid naar scenario's met meerdere onderwerpen, waaronder virtuele passessies en achtergrond-controleerbare generatie. Concat-ID stelt een nieuwe standaard voor identiteit-behoudende videosynthese en biedt een veelzijdige en schaalbare oplossing voor een breed scala aan toepassingen.
English
We present Concat-ID, a unified framework for identity-preserving video generation. Concat-ID employs Variational Autoencoders to extract image features, which are concatenated with video latents along the sequence dimension, leveraging solely 3D self-attention mechanisms without the need for additional modules. A novel cross-video pairing strategy and a multi-stage training regimen are introduced to balance identity consistency and facial editability while enhancing video naturalness. Extensive experiments demonstrate Concat-ID's superiority over existing methods in both single and multi-identity generation, as well as its seamless scalability to multi-subject scenarios, including virtual try-on and background-controllable generation. Concat-ID establishes a new benchmark for identity-preserving video synthesis, providing a versatile and scalable solution for a wide range of applications.

Summary

AI-Generated Summary

PDF102March 19, 2025