AnyTalker: Skalierbare Erzeugung von Mehrpersonen-Sprechvideos mit Interaktivitätsverfeinerung
AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement
November 28, 2025
papers.authors: Zhizhou Zhong, Yicheng Ji, Zhe Kong, Yiying Liu, Jiarui Wang, Jiasun Feng, Lupeng Liu, Xiangyi Wang, Yanjia Li, Yuqing She, Ying Qin, Huan Li, Shuiyang Mao, Wei Liu, Wenhan Luo
cs.AI
papers.abstract
Kürzlich hat die Generierung von Mehrpersonenvideos an Bedeutung gewonnen. Während erste Vorarbeiten die audiogesteuerte Erzeugung von sprechenden Mehrpersonenvideos untersucht haben, stehen diese oft vor Herausforderungen aufgrund der hohen Kosten für die Erfassung diverser Mehrpersonendaten und der Schwierigkeit, mehrere Identitäten mit kohärenter Interaktivität zu steuern. Um diese Probleme zu lösen, schlagen wir AnyTalker vor, ein Mehrpersonen-Generierungsframework mit einer erweiterbaren Mehrstrom-Verarbeitungsarchitektur. Konkret erweitern wir den Attention-Block des Diffusion Transformers um einen neuartigen identitätsbewussten Attention-Mechanismus, der Identitäts-Audio-Paare iterativ verarbeitet und eine beliebige Skalierung der steuerbaren Identitäten ermöglicht. Darüber hinaus erfordert das Training von Mehrpersonen-Generativmodellen umfangreiche Mehrpersonendaten. Unser vorgeschlagener Trainingsprozess ist ausschließlich auf Einzelpersonenvideos angewiesen, um Sprechmuster mehrerer Personen zu erlernen, und verfeinert die Interaktivität mit nur wenigen echten Mehrpersonenclips. Zusätzlich stellen wir eine spezifische Metrik und einen Datensatz vor, die entwickelt wurden, um die Natürlichkeit und Interaktivität der generierten Mehrpersonenvideos zu bewerten. Umfangreiche Experimente belegen, dass AnyTalker eine bemerkenswerte Lippensynchronisation, visuelle Qualität und natürliche Interaktivität erreicht und dabei ein vorteilhaftes Gleichgewicht zwischen Datenskosten und Identitätsskalierbarkeit schafft.
English
Recently, multi-person video generation has started to gain prominence. While a few preliminary works have explored audio-driven multi-person talking video generation, they often face challenges due to the high costs of diverse multi-person data collection and the difficulty of driving multiple identities with coherent interactivity. To address these challenges, we propose AnyTalker, a multi-person generation framework that features an extensible multi-stream processing architecture. Specifically, we extend Diffusion Transformer's attention block with a novel identity-aware attention mechanism that iteratively processes identity-audio pairs, allowing arbitrary scaling of drivable identities. Besides, training multi-person generative models demands massive multi-person data. Our proposed training pipeline depends solely on single-person videos to learn multi-person speaking patterns and refines interactivity with only a few real multi-person clips. Furthermore, we contribute a targeted metric and dataset designed to evaluate the naturalness and interactivity of the generated multi-person videos. Extensive experiments demonstrate that AnyTalker achieves remarkable lip synchronization, visual quality, and natural interactivity, striking a favorable balance between data costs and identity scalability.