Multi-menselijk Interactief Gespreksdataset
Multi-human Interactive Talking Dataset
August 5, 2025
Auteurs: Zeyu Zhu, Weijia Wu, Mike Zheng Shou
cs.AI
Samenvatting
Bestaande studies over het genereren van pratende video's hebben zich voornamelijk gericht op monologen van één persoon of geïsoleerde gezichtsanimaties, wat hun toepasbaarheid op realistische interacties tussen meerdere mensen beperkt. Om deze kloof te overbruggen, introduceren we MIT, een grootschalige dataset die specifiek is ontworpen voor het genereren van pratende video's met meerdere mensen. Hiervoor ontwikkelen we een automatische pijplijn die gespreksvideo's met meerdere personen verzamelt en annoteert. De resulterende dataset omvat 12 uur aan hoogwaardig beeldmateriaal, waarbij elke opname twee tot vier sprekers bevat, met gedetailleerde annotaties van lichaamshoudingen en spraakinteracties. Het vangt natuurlijke gespreksdynamieken in scenario's met meerdere sprekers, en biedt zo een rijke bron voor het bestuderen van interactief visueel gedrag. Om het potentieel van MIT te demonstreren, stellen we verder CovOG voor, een basismodel voor deze nieuwe taak. Het integreert een Multi-Human Pose Encoder (MPE) om wisselende aantallen sprekers te verwerken door individuele pose-embeddings samen te voegen, en een Interactive Audio Driver (IAD) om hoofddynamieken te moduleren op basis van sprekerspecifieke audio-eigenschappen. Samen tonen deze componenten de haalbaarheid en uitdagingen van het genereren van realistische pratende video's met meerdere mensen, en vestigen MIT als een waardevolle benchmark voor toekomstig onderzoek. De code is beschikbaar op: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
English
Existing studies on talking video generation have predominantly focused on
single-person monologues or isolated facial animations, limiting their
applicability to realistic multi-human interactions. To bridge this gap, we
introduce MIT, a large-scale dataset specifically designed for multi-human
talking video generation. To this end, we develop an automatic pipeline that
collects and annotates multi-person conversational videos. The resulting
dataset comprises 12 hours of high-resolution footage, each featuring two to
four speakers, with fine-grained annotations of body poses and speech
interactions. It captures natural conversational dynamics in multi-speaker
scenario, offering a rich resource for studying interactive visual behaviors.
To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model
for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle
varying numbers of speakers by aggregating individual pose embeddings, and an
Interactive Audio Driver (IAD) to modulate head dynamics based on
speaker-specific audio features. Together, these components showcase the
feasibility and challenges of generating realistic multi-human talking videos,
establishing MIT as a valuable benchmark for future research. The code is
avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.