Mehrpersonen-Interaktives Sprachdatensatz
Multi-human Interactive Talking Dataset
August 5, 2025
papers.authors: Zeyu Zhu, Weijia Wu, Mike Zheng Shou
cs.AI
papers.abstract
Bisherige Studien zur Generierung von sprechenden Videos konzentrierten sich hauptsächlich auf Einzelpersonen-Monologe oder isolierte Gesichtsanimationen, was ihre Anwendbarkeit auf realistische Interaktionen zwischen mehreren Personen einschränkt. Um diese Lücke zu schließen, stellen wir MIT vor, einen groß angelegten Datensatz, der speziell für die Generierung von Videos mit mehreren sprechenden Personen entwickelt wurde. Zu diesem Zweck haben wir eine automatische Pipeline entwickelt, die Videos von Mehrpersonen-Gesprächen sammelt und annotiert. Der daraus resultierende Datensatz umfasst 12 Stunden hochauflösendes Filmmaterial, das jeweils zwei bis vier Sprecher zeigt, mit detaillierten Annotationen von Körperhaltungen und Sprechinteraktionen. Er erfasst die natürliche Dynamik von Gesprächen in Mehrsprecher-Szenarien und bietet eine umfangreiche Ressource für die Erforschung interaktiver visueller Verhaltensweisen. Um das Potenzial von MIT zu demonstrieren, schlagen wir weiterhin CovOG vor, ein Basismodell für diese neuartige Aufgabe. Es integriert einen Multi-Human Pose Encoder (MPE), der die unterschiedliche Anzahl von Sprechern durch die Aggregation individueller Pose-Embeddings handhabt, und einen Interactive Audio Driver (IAD), der die Kopfdynamik basierend auf sprecherspezifischen Audio-Features moduliert. Zusammen zeigen diese Komponenten die Machbarkeit und die Herausforderungen bei der Generierung realistischer Videos mit mehreren sprechenden Personen auf und etablieren MIT als wertvollen Benchmark für zukünftige Forschungen. Der Code ist verfügbar unter: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
English
Existing studies on talking video generation have predominantly focused on
single-person monologues or isolated facial animations, limiting their
applicability to realistic multi-human interactions. To bridge this gap, we
introduce MIT, a large-scale dataset specifically designed for multi-human
talking video generation. To this end, we develop an automatic pipeline that
collects and annotates multi-person conversational videos. The resulting
dataset comprises 12 hours of high-resolution footage, each featuring two to
four speakers, with fine-grained annotations of body poses and speech
interactions. It captures natural conversational dynamics in multi-speaker
scenario, offering a rich resource for studying interactive visual behaviors.
To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model
for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle
varying numbers of speakers by aggregating individual pose embeddings, and an
Interactive Audio Driver (IAD) to modulate head dynamics based on
speaker-specific audio features. Together, these components showcase the
feasibility and challenges of generating realistic multi-human talking videos,
establishing MIT as a valuable benchmark for future research. The code is
avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.