Друзья-MMC: Набор данных для понимания много модальных многосторонних разговоров
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding
December 23, 2024
Авторы: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao
cs.AI
Аннотация
Многомодальный многопартийный разговор (MMC) является менее изученной, но важной темой исследований, поскольку хорошо соответствует реальным сценариям и, следовательно, потенциально имеет более широкое применение. По сравнению с традиционными многомодальными разговорами, MMC требует более сильных способностей к пониманию персонажей, поскольку визуальный и текстовый контекст включают множество собеседников. Для облегчения изучения этой проблемы мы представляем в этой статье Friends-MMC, набор данных MMC, содержащий 24 000+ уникальных высказываний, сопровождаемых видеоконтекстом. Для изучения понимания диалога, мы также аннотируем говорящего в каждом высказывании, имена и ограничивающие рамки лиц, появляющихся в видео. На основе этого набора данных Friends-MMC мы дополнительно изучаем две фундаментальные задачи MMC: идентификацию говорящего в разговоре и предсказание ответа в разговоре, обе из которых имеют многопартийный характер с видео или изображением в качестве визуального контекста. Для идентификации говорящего в разговоре мы демонстрируем неэффективность существующих методов, таких как предварительно обученные модели, и предлагаем простой, но эффективный базовый метод, который использует оптимизационный решатель для использования контекста двух модальностей для достижения лучшей производительности. Для предсказания ответа в разговоре мы донастраиваем генеративные модели диалога на Friends-MMC и анализируем выгоды информации о говорящем. Код и набор данных доступны публично по адресу https://github.com/yellow-binary-tree/Friends-MMC, и поэтому мы призываем к большему вниманию к моделированию информации о говорящем при понимании разговоров.
English
Multi-modal multi-party conversation (MMC) is a less studied yet important
topic of research due to that it well fits real-world scenarios and thus
potentially has more widely-used applications. Compared with the traditional
multi-modal conversations, MMC requires stronger character-centered
understanding abilities as there are many interlocutors appearing in both the
visual and textual context. To facilitate the study of this problem, we present
Friends-MMC in this paper, an MMC dataset that contains 24,000+ unique
utterances paired with video context. To explore the character-centered
understanding of the dialogue, we also annotate the speaker of each utterance,
the names and bounding bboxes of faces that appear in the video. Based on this
Friends-MMC dataset, we further study two fundamental MMC tasks: conversation
speaker identification and conversation response prediction, both of which have
the multi-party nature with the video or image as visual context. For
conversation speaker identification, we demonstrate the inefficiencies of
existing methods such as pre-trained models, and propose a simple yet effective
baseline method that leverages an optimization solver to utilize the context of
two modalities to achieve better performance. For conversation response
prediction, we fine-tune generative dialogue models on Friend-MMC, and analyze
the benefits of speaker information. The code and dataset is publicly available
at https://github.com/yellow-binary-tree/Friends-MMC and thus we call for more
attention on modeling speaker information when understanding conversations.Summary
AI-Generated Summary