ChatPaper.aiChatPaper

AnyTalker : Mise à l'échelle de la génération vidéo de conversations multi-personnes avec raffinement interactif

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

November 28, 2025
papers.authors: Zhizhou Zhong, Yicheng Ji, Zhe Kong, Yiying Liu, Jiarui Wang, Jiasun Feng, Lupeng Liu, Xiangyi Wang, Yanjia Li, Yuqing She, Ying Qin, Huan Li, Shuiyang Mao, Wei Liu, Wenhan Luo
cs.AI

papers.abstract

Récemment, la génération de vidéos multi-personnes a commencé à gagner en importance. Bien que quelques travaux préliminaires aient exploré la génération de vidéos de conversation multi-personnes pilotée par l'audio, ils se heurtent souvent à des difficultés liées au coût élevé de la collecte de données multi-personnes diversifiées et à la complexité d'animer plusieurs identités avec une interactivité cohérente. Pour relever ces défis, nous proposons AnyTalker, un cadre de génération multi-personnes doté d'une architecture de traitement multi-flux extensible. Plus précisément, nous étendons le bloc d'attention du Transformer à Diffusion avec un nouveau mécanisme d'attention sensible à l'identité qui traite itérativement des paires identité-audio, permettant une mise à l'échelle arbitraire des identités pilotables. Par ailleurs, l'entraînement de modèles génératifs multi-personnes nécessite d'énormes quantités de données multi-personnes. Notre pipeline d'entraînement proposé dépend uniquement de vidéos mono-personne pour apprendre les schémas de parole multi-personnes et affine l'interactivité avec seulement quelques clips réels multi-personnes. De plus, nous contribuons par une métrique et un jeu de données spécifiquement conçus pour évaluer le naturel et l'interactivité des vidéos multi-personnes générées. Des expériences approfondies démontrent qu'AnyTalker atteint une remarquable synchronisation labiale, une qualité visuelle élevée et une interactivité naturelle, offrant un équilibre favorable entre le coût des données et l'évolutivité des identités.
English
Recently, multi-person video generation has started to gain prominence. While a few preliminary works have explored audio-driven multi-person talking video generation, they often face challenges due to the high costs of diverse multi-person data collection and the difficulty of driving multiple identities with coherent interactivity. To address these challenges, we propose AnyTalker, a multi-person generation framework that features an extensible multi-stream processing architecture. Specifically, we extend Diffusion Transformer's attention block with a novel identity-aware attention mechanism that iteratively processes identity-audio pairs, allowing arbitrary scaling of drivable identities. Besides, training multi-person generative models demands massive multi-person data. Our proposed training pipeline depends solely on single-person videos to learn multi-person speaking patterns and refines interactivity with only a few real multi-person clips. Furthermore, we contribute a targeted metric and dataset designed to evaluate the naturalness and interactivity of the generated multi-person videos. Extensive experiments demonstrate that AnyTalker achieves remarkable lip synchronization, visual quality, and natural interactivity, striking a favorable balance between data costs and identity scalability.
PDF323December 2, 2025