Conjunto de Datos de Conversación Interactiva Multi-Humana
Multi-human Interactive Talking Dataset
August 5, 2025
Autores: Zeyu Zhu, Weijia Wu, Mike Zheng Shou
cs.AI
Resumen
Los estudios existentes sobre la generación de videos de personas hablando se han centrado predominantemente en monólogos de una sola persona o en animaciones faciales aisladas, lo que limita su aplicabilidad a interacciones realistas entre múltiples personas. Para cerrar esta brecha, presentamos MIT, un conjunto de datos a gran escala diseñado específicamente para la generación de videos de múltiples personas hablando. Con este fin, desarrollamos una pipeline automática que recopila y anota videos de conversaciones entre varias personas. El conjunto de datos resultante comprende 12 horas de grabaciones en alta resolución, cada una con dos a cuatro hablantes, y anotaciones detalladas de las posturas corporales y las interacciones del habla. Captura la dinámica natural de las conversaciones en escenarios con múltiples hablantes, ofreciendo un recurso valioso para estudiar comportamientos visuales interactivos. Para demostrar el potencial de MIT, proponemos además CovOG, un modelo de referencia para esta nueva tarea. Este modelo integra un Codificador de Posturas Multi-Humanas (MPE) para manejar un número variable de hablantes mediante la agregación de representaciones individuales de posturas, y un Controlador de Audio Interactivo (IAD) para modular la dinámica de la cabeza basándose en características de audio específicas de cada hablante. Juntos, estos componentes muestran la viabilidad y los desafíos de generar videos realistas de múltiples personas hablando, estableciendo a MIT como un punto de referencia valioso para futuras investigaciones. El código está disponible en: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
English
Existing studies on talking video generation have predominantly focused on
single-person monologues or isolated facial animations, limiting their
applicability to realistic multi-human interactions. To bridge this gap, we
introduce MIT, a large-scale dataset specifically designed for multi-human
talking video generation. To this end, we develop an automatic pipeline that
collects and annotates multi-person conversational videos. The resulting
dataset comprises 12 hours of high-resolution footage, each featuring two to
four speakers, with fine-grained annotations of body poses and speech
interactions. It captures natural conversational dynamics in multi-speaker
scenario, offering a rich resource for studying interactive visual behaviors.
To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model
for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle
varying numbers of speakers by aggregating individual pose embeddings, and an
Interactive Audio Driver (IAD) to modulate head dynamics based on
speaker-specific audio features. Together, these components showcase the
feasibility and challenges of generating realistic multi-human talking videos,
establishing MIT as a valuable benchmark for future research. The code is
avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.