Conjunto de Dados de Conversação Interativa Multi-humana
Multi-human Interactive Talking Dataset
August 5, 2025
Autores: Zeyu Zhu, Weijia Wu, Mike Zheng Shou
cs.AI
Resumo
Estudos existentes sobre a geração de vídeos de pessoas falando têm se concentrado predominantemente em monólogos de uma única pessoa ou em animações faciais isoladas, limitando sua aplicabilidade a interações realistas entre múltiplos indivíduos. Para preencher essa lacuna, apresentamos o MIT, um conjunto de dados em grande escala especificamente projetado para a geração de vídeos de múltiplas pessoas falando. Para isso, desenvolvemos um pipeline automático que coleta e anota vídeos de conversas com múltiplas pessoas. O conjunto de dados resultante compreende 12 horas de filmagens em alta resolução, cada uma apresentando de dois a quatro falantes, com anotações detalhadas de poses corporais e interações de fala. Ele captura a dinâmica natural de conversas em cenários com múltiplos falantes, oferecendo um recurso rico para o estudo de comportamentos visuais interativos. Para demonstrar o potencial do MIT, propomos ainda o CovOG, um modelo de base para essa nova tarefa. Ele integra um Codificador de Pose para Múltiplos Humanos (MPE) para lidar com números variáveis de falantes, agregando embeddings de pose individuais, e um Driver de Áudio Interativo (IAD) para modular a dinâmica da cabeça com base em características de áudio específicas de cada falante. Juntos, esses componentes demonstram a viabilidade e os desafios de gerar vídeos realistas de múltiplas pessoas falando, estabelecendo o MIT como um benchmark valioso para pesquisas futuras. O código está disponível em: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
English
Existing studies on talking video generation have predominantly focused on
single-person monologues or isolated facial animations, limiting their
applicability to realistic multi-human interactions. To bridge this gap, we
introduce MIT, a large-scale dataset specifically designed for multi-human
talking video generation. To this end, we develop an automatic pipeline that
collects and annotates multi-person conversational videos. The resulting
dataset comprises 12 hours of high-resolution footage, each featuring two to
four speakers, with fine-grained annotations of body poses and speech
interactions. It captures natural conversational dynamics in multi-speaker
scenario, offering a rich resource for studying interactive visual behaviors.
To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model
for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle
varying numbers of speakers by aggregating individual pose embeddings, and an
Interactive Audio Driver (IAD) to modulate head dynamics based on
speaker-specific audio features. Together, these components showcase the
feasibility and challenges of generating realistic multi-human talking videos,
establishing MIT as a valuable benchmark for future research. The code is
avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.