Мультичеловеческий интерактивный набор данных для разговоров
Multi-human Interactive Talking Dataset
August 5, 2025
Авторы: Zeyu Zhu, Weijia Wu, Mike Zheng Shou
cs.AI
Аннотация
Существующие исследования в области генерации говорящих видео в основном сосредоточены на монологах одного человека или изолированных анимациях лица, что ограничивает их применимость для реалистичных взаимодействий между несколькими людьми. Чтобы устранить этот пробел, мы представляем MIT — крупномасштабный набор данных, специально разработанный для генерации видео с участием нескольких говорящих людей. Для этого мы разработали автоматизированный процесс сбора и аннотирования видеозаписей многочеловеческих разговоров. Полученный набор данных включает 12 часов видео высокого разрешения, на каждом из которых запечатлены от двух до четырех говорящих, с детальными аннотациями поз тела и речевых взаимодействий. Он фиксирует естественную динамику разговоров в сценариях с несколькими участниками, предоставляя богатый ресурс для изучения интерактивных визуальных поведений. Чтобы продемонстрировать потенциал MIT, мы также предлагаем CovOG — базовую модель для этой новой задачи. Она включает в себя Multi-Human Pose Encoder (MPE) для обработки различного числа говорящих путем агрегирования индивидуальных эмбеддингов поз, а также Interactive Audio Driver (IAD) для модуляции динамики головы на основе аудио-характеристик, специфичных для каждого говорящего. Вместе эти компоненты демонстрируют возможность и вызовы генерации реалистичных видео с участием нескольких говорящих людей, устанавливая MIT как ценный эталон для будущих исследований. Код доступен по адресу: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
English
Existing studies on talking video generation have predominantly focused on
single-person monologues or isolated facial animations, limiting their
applicability to realistic multi-human interactions. To bridge this gap, we
introduce MIT, a large-scale dataset specifically designed for multi-human
talking video generation. To this end, we develop an automatic pipeline that
collects and annotates multi-person conversational videos. The resulting
dataset comprises 12 hours of high-resolution footage, each featuring two to
four speakers, with fine-grained annotations of body poses and speech
interactions. It captures natural conversational dynamics in multi-speaker
scenario, offering a rich resource for studying interactive visual behaviors.
To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model
for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle
varying numbers of speakers by aggregating individual pose embeddings, and an
Interactive Audio Driver (IAD) to modulate head dynamics based on
speaker-specific audio features. Together, these components showcase the
feasibility and challenges of generating realistic multi-human talking videos,
establishing MIT as a valuable benchmark for future research. The code is
avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.