ChatPaper.aiChatPaper

AnyTalker:インタラクティブ性の洗練によるマルチ人物対話動画生成のスケーリング

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

November 28, 2025
著者: Zhizhou Zhong, Yicheng Ji, Zhe Kong, Yiying Liu, Jiarui Wang, Jiasun Feng, Lupeng Liu, Xiangyi Wang, Yanjia Li, Yuqing She, Ying Qin, Huan Li, Shuiyang Mao, Wei Liu, Wenhan Luo
cs.AI

要旨

近年、マルチ人物ビデオ生成が注目を集め始めている。音声駆動型のマルチ人物会話ビデオ生成についてはいくつかの先行研究が存在するが、多様なマルチ人物データ収集のコストの高さや、複数のアイデンティティを一貫した相互作用で駆動する難しさから課題に直面している。これらの課題に対処するため、我々は拡張可能なマルチストリーム処理アーキテクチャを特徴とするマルチ人物生成フレームワーク「AnyTalker」を提案する。具体的には、Diffusion Transformerのアテンションブロックを拡張し、アイデンティティと音声のペアを反復処理することで駆動可能なアイデンティティの任意のスケーリングを可能にする新規のアイデンティティ認識アテンション機構を実装した。さらに、マルチ人物生成モデルの学習には大規模なマルチ人物データが必要となるが、提案する学習パイプラインは単一人物ビデオのみでマルチ人物の会話パターンを学習し、少数の実マルチ人物クリップで相互作用性を洗練する。加えて、生成されたマルチ人物ビデオの自然さと相互作用性を評価するための指標とデータセットを構築した。大規模な実験により、AnyTalkerが優れた口唇同期性、視覚的品質、自然な相互作用性を達成し、データコストとアイデンティティ拡張性の間で良好なバランスを実現することを実証した。
English
Recently, multi-person video generation has started to gain prominence. While a few preliminary works have explored audio-driven multi-person talking video generation, they often face challenges due to the high costs of diverse multi-person data collection and the difficulty of driving multiple identities with coherent interactivity. To address these challenges, we propose AnyTalker, a multi-person generation framework that features an extensible multi-stream processing architecture. Specifically, we extend Diffusion Transformer's attention block with a novel identity-aware attention mechanism that iteratively processes identity-audio pairs, allowing arbitrary scaling of drivable identities. Besides, training multi-person generative models demands massive multi-person data. Our proposed training pipeline depends solely on single-person videos to learn multi-person speaking patterns and refines interactivity with only a few real multi-person clips. Furthermore, we contribute a targeted metric and dataset designed to evaluate the naturalness and interactivity of the generated multi-person videos. Extensive experiments demonstrate that AnyTalker achieves remarkable lip synchronization, visual quality, and natural interactivity, striking a favorable balance between data costs and identity scalability.
PDF323December 2, 2025