Jeu de données interactif multi-utilisateurs pour la conversation
Multi-human Interactive Talking Dataset
August 5, 2025
papers.authors: Zeyu Zhu, Weijia Wu, Mike Zheng Shou
cs.AI
papers.abstract
Les études existantes sur la génération de vidéos parlantes se sont principalement concentrées sur des monologues à une seule personne ou des animations faciales isolées, limitant ainsi leur applicabilité à des interactions réalistes entre plusieurs individus. Pour combler cette lacune, nous introduisons MIT, un ensemble de données à grande échelle spécifiquement conçu pour la génération de vidéos parlantes impliquant plusieurs personnes. À cette fin, nous avons développé un pipeline automatique qui collecte et annote des vidéos de conversations impliquant plusieurs personnes. L'ensemble de données résultant comprend 12 heures de séquences en haute résolution, chacune mettant en scène deux à quatre locuteurs, avec des annotations détaillées des poses corporelles et des interactions vocales. Il capture les dynamiques naturelles des conversations dans des scénarios multi-locuteurs, offrant ainsi une ressource riche pour l'étude des comportements visuels interactifs. Pour démontrer le potentiel de MIT, nous proposons en outre CovOG, un modèle de référence pour cette nouvelle tâche. Il intègre un Encodeur de Poses Multi-Humaines (MPE) pour gérer un nombre variable de locuteurs en agrégeant les embeddings de poses individuelles, et un Pilote Audio Interactif (IAD) pour moduler les dynamiques de la tête en fonction des caractéristiques audio spécifiques à chaque locuteur. Ensemble, ces composants illustrent la faisabilité et les défis de la génération de vidéos parlantes réalistes impliquant plusieurs personnes, établissant MIT comme un benchmark précieux pour les recherches futures. Le code est disponible à l'adresse suivante : https://github.com/showlab/Multi-human-Talking-Video-Dataset.
English
Existing studies on talking video generation have predominantly focused on
single-person monologues or isolated facial animations, limiting their
applicability to realistic multi-human interactions. To bridge this gap, we
introduce MIT, a large-scale dataset specifically designed for multi-human
talking video generation. To this end, we develop an automatic pipeline that
collects and annotates multi-person conversational videos. The resulting
dataset comprises 12 hours of high-resolution footage, each featuring two to
four speakers, with fine-grained annotations of body poses and speech
interactions. It captures natural conversational dynamics in multi-speaker
scenario, offering a rich resource for studying interactive visual behaviors.
To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model
for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle
varying numbers of speakers by aggregating individual pose embeddings, and an
Interactive Audio Driver (IAD) to modulate head dynamics based on
speaker-specific audio features. Together, these components showcase the
feasibility and challenges of generating realistic multi-human talking videos,
establishing MIT as a valuable benchmark for future research. The code is
avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.