ChatPaper.aiChatPaper

AnyTalker: 상호작용 정제를 통한 다중 인물 발화 영상 생성 확장

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

November 28, 2025
저자: Zhizhou Zhong, Yicheng Ji, Zhe Kong, Yiying Liu, Jiarui Wang, Jiasun Feng, Lupeng Liu, Xiangyi Wang, Yanjia Li, Yuqing She, Ying Qin, Huan Li, Shuiyang Mao, Wei Liu, Wenhan Luo
cs.AI

초록

최근 다인원 비디오 생성 기술이 주목받기 시작했습니다. 일부 선행 연구에서 오디오 기반 다인원 대화 비디오 생성을 탐구했으나, 다양한 다인원 데이터 수집의 높은 비용과 일관된 상호작용을 갖춘 다중 정체성 구동의 어려움으로 인해 어려움을 겪고 있습니다. 이러한 과제를 해결하기 위해 본 논문은 확장 가능한 다중 스트림 처리 아키텍처를 특징으로 하는 다인원 생성 프레임워크인 AnyTalker를 제안합니다. 구체적으로 우리는 Diffusion Transformer의 어텐션 블록을 확장하여 정체성-오디오 쌍을 반복적으로 처리함으로써 구동 가능한 정체성을 임의로 확장할 수 있는 새로운 정체성 인식 어텐션 메커니즘을 도입했습니다. 또한 다인원 생성 모델 학습에는 대규모 다인원 데이터가 필요합니다. 저희가 제안하는 학습 파이프라인은 단일 인물 비디오만으로 다인원 발화 패턴을 학습하고, 소수의 실제 다인원 클립으로 상호작용성을 정제합니다. 더 나아가 생성된 다인원 비디오의 자연스러움과 상호작용성을 평가하기 위한 특화된 측정 기준과 데이터셋을 구축했습니다. 폭넓은 실험을 통해 AnyTalker가 뛰어난 립 싱크로나이제이션, 시각적 품질, 자연스러운 상호작용성을 달성하며 데이터 비용과 정체성 확장성 사이에서 유리한 균형을 이루는 것을 입증했습니다.
English
Recently, multi-person video generation has started to gain prominence. While a few preliminary works have explored audio-driven multi-person talking video generation, they often face challenges due to the high costs of diverse multi-person data collection and the difficulty of driving multiple identities with coherent interactivity. To address these challenges, we propose AnyTalker, a multi-person generation framework that features an extensible multi-stream processing architecture. Specifically, we extend Diffusion Transformer's attention block with a novel identity-aware attention mechanism that iteratively processes identity-audio pairs, allowing arbitrary scaling of drivable identities. Besides, training multi-person generative models demands massive multi-person data. Our proposed training pipeline depends solely on single-person videos to learn multi-person speaking patterns and refines interactivity with only a few real multi-person clips. Furthermore, we contribute a targeted metric and dataset designed to evaluate the naturalness and interactivity of the generated multi-person videos. Extensive experiments demonstrate that AnyTalker achieves remarkable lip synchronization, visual quality, and natural interactivity, striking a favorable balance between data costs and identity scalability.
PDF323December 2, 2025