Concat-ID: 보편적 아이덴티티 보존 비디오 합성을 향하여
Concat-ID: Towards Universal Identity-Preserving Video Synthesis
March 18, 2025
저자: Yong Zhong, Zhuoyi Yang, Jiayan Teng, Xiaotao Gu, Chongxuan Li
cs.AI
초록
본 논문에서는 정체성 보존 비디오 생성을 위한 통합 프레임워크인 Concat-ID를 제안합니다. Concat-ID는 Variational Autoencoder를 활용하여 이미지 특징을 추출하고, 이를 시퀀스 차원을 따라 비디오 잠재 변수와 연결합니다. 이 과정에서 추가 모듈 없이 3D 자기 주의 메커니즘만을 활용합니다. 정체성 일관성과 얼굴 편집 가능성의 균형을 유지하면서 비디오의 자연스러움을 향상시키기 위해, 새로운 교차 비디오 페어링 전략과 다단계 학습 방식을 도입했습니다. 광범위한 실험을 통해 Concat-ID가 단일 및 다중 정체성 생성에서 기존 방법들을 능가하며, 가상 피팅 및 배경 제어 가능 생성과 같은 다중 주제 시나리오에서도 원활하게 확장 가능함을 입증했습니다. Concat-ID는 정체성 보존 비디오 합성 분야에서 새로운 벤치마크를 제시하며, 다양한 응용 분야에 걸쳐 유연하고 확장 가능한 솔루션을 제공합니다.
English
We present Concat-ID, a unified framework for identity-preserving video
generation. Concat-ID employs Variational Autoencoders to extract image
features, which are concatenated with video latents along the sequence
dimension, leveraging solely 3D self-attention mechanisms without the need for
additional modules. A novel cross-video pairing strategy and a multi-stage
training regimen are introduced to balance identity consistency and facial
editability while enhancing video naturalness. Extensive experiments
demonstrate Concat-ID's superiority over existing methods in both single and
multi-identity generation, as well as its seamless scalability to multi-subject
scenarios, including virtual try-on and background-controllable generation.
Concat-ID establishes a new benchmark for identity-preserving video synthesis,
providing a versatile and scalable solution for a wide range of applications.Summary
AI-Generated Summary