Dataset di Conversazione Interattiva Multi-Umana
Multi-human Interactive Talking Dataset
August 5, 2025
Autori: Zeyu Zhu, Weijia Wu, Mike Zheng Shou
cs.AI
Abstract
Gli studi esistenti sulla generazione di video parlanti si sono concentrati prevalentemente su monologhi di singole persone o su animazioni facciali isolate, limitando la loro applicabilità a interazioni realistiche tra più individui. Per colmare questa lacuna, introduciamo MIT, un dataset su larga scala specificamente progettato per la generazione di video parlanti con più persone. A tal fine, abbiamo sviluppato una pipeline automatica che raccoglie e annota video di conversazioni tra più persone. Il dataset risultante comprende 12 ore di filmati ad alta risoluzione, ciascuno dei quali presenta da due a quattro parlanti, con annotazioni dettagliate delle pose del corpo e delle interazioni verbali. Cattura le dinamiche naturali delle conversazioni in scenari con più parlanti, offrendo una risorsa preziosa per lo studio dei comportamenti visivi interattivi. Per dimostrare il potenziale di MIT, proponiamo ulteriormente CovOG, un modello di base per questo nuovo compito. Esso integra un Multi-Human Pose Encoder (MPE) per gestire un numero variabile di parlanti aggregando gli embedding delle pose individuali, e un Interactive Audio Driver (IAD) per modulare le dinamiche della testa in base alle caratteristiche audio specifiche di ciascun parlante. Insieme, questi componenti dimostrano la fattibilità e le sfide della generazione di video parlanti realistici con più persone, stabilendo MIT come un punto di riferimento prezioso per la ricerca futura. Il codice è disponibile all'indirizzo: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
English
Existing studies on talking video generation have predominantly focused on
single-person monologues or isolated facial animations, limiting their
applicability to realistic multi-human interactions. To bridge this gap, we
introduce MIT, a large-scale dataset specifically designed for multi-human
talking video generation. To this end, we develop an automatic pipeline that
collects and annotates multi-person conversational videos. The resulting
dataset comprises 12 hours of high-resolution footage, each featuring two to
four speakers, with fine-grained annotations of body poses and speech
interactions. It captures natural conversational dynamics in multi-speaker
scenario, offering a rich resource for studying interactive visual behaviors.
To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model
for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle
varying numbers of speakers by aggregating individual pose embeddings, and an
Interactive Audio Driver (IAD) to modulate head dynamics based on
speaker-specific audio features. Together, these components showcase the
feasibility and challenges of generating realistic multi-human talking videos,
establishing MIT as a valuable benchmark for future research. The code is
avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.