ChatPaper.aiChatPaper

マルチヒューマンインタラクティブ会話データセット

Multi-human Interactive Talking Dataset

August 5, 2025
著者: Zeyu Zhu, Weijia Wu, Mike Zheng Shou
cs.AI

要旨

既存の会話動画生成に関する研究は、主に単一人物のモノローグや孤立した顔面アニメーションに焦点を当てており、現実的な複数人間の相互作用への適用性が限られていました。このギャップを埋めるため、我々は複数人間の会話動画生成に特化した大規模データセットMITを導入します。この目的のために、複数人物の会話動画を自動的に収集・注釈するパイプラインを開発しました。結果として得られたデータセットは、2人から4人の話者を特徴とする12時間の高解像度映像からなり、身体のポーズや発話相互作用の詳細な注釈が付与されています。これにより、複数話者シナリオにおける自然な会話ダイナミクスを捉え、インタラクティブな視覚的行動を研究するための豊富なリソースを提供します。 MITの可能性を示すため、我々はさらにこの新規タスクのためのベースラインモデルCovOGを提案します。CovOGは、個々のポーズ埋め込みを集約することで可変数の話者を扱うMulti-Human Pose Encoder (MPE)と、話者固有の音声特徴に基づいて頭部の動きを調整するInteractive Audio Driver (IAD)を統合しています。これらのコンポーネントは、現実的な複数人間の会話動画を生成する可能性と課題を示し、MITを将来の研究のための貴重なベンチマークとして確立します。コードはhttps://github.com/showlab/Multi-human-Talking-Video-Datasetで公開されています。
English
Existing studies on talking video generation have predominantly focused on single-person monologues or isolated facial animations, limiting their applicability to realistic multi-human interactions. To bridge this gap, we introduce MIT, a large-scale dataset specifically designed for multi-human talking video generation. To this end, we develop an automatic pipeline that collects and annotates multi-person conversational videos. The resulting dataset comprises 12 hours of high-resolution footage, each featuring two to four speakers, with fine-grained annotations of body poses and speech interactions. It captures natural conversational dynamics in multi-speaker scenario, offering a rich resource for studying interactive visual behaviors. To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle varying numbers of speakers by aggregating individual pose embeddings, and an Interactive Audio Driver (IAD) to modulate head dynamics based on speaker-specific audio features. Together, these components showcase the feasibility and challenges of generating realistic multi-human talking videos, establishing MIT as a valuable benchmark for future research. The code is avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
PDF63August 6, 2025