ChatPaper.aiChatPaper

Friends-MMC : Un ensemble de données pour la compréhension des conversations multi-modales et multi-parties.

Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

December 23, 2024
Auteurs: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao
cs.AI

Résumé

Les conversations multi-modales multi-parties (MMC) sont un sujet de recherche moins étudié mais important car elles correspondent bien aux scénarios du monde réel et ont donc potentiellement des applications plus largement utilisées. Comparé aux conversations multi-modales traditionnelles, les MMC nécessitent des capacités de compréhension centrées sur les personnages plus fortes car de nombreux interlocuteurs apparaissent à la fois dans le contexte visuel et textuel. Pour faciliter l'étude de ce problème, nous présentons dans cet article Friends-MMC, un ensemble de données MMC contenant plus de 24 000 énoncés uniques associés à un contexte vidéo. Pour explorer la compréhension centrée sur les personnages du dialogue, nous annotons également le locuteur de chaque énoncé, les noms et les boîtes englobantes des visages apparaissant dans la vidéo. Basé sur cet ensemble de données Friends-MMC, nous étudions ensuite deux tâches MMC fondamentales : l'identification du locuteur de la conversation et la prédiction de la réponse à la conversation, toutes deux ayant une nature multi-parties avec la vidéo ou l'image comme contexte visuel. Pour l'identification du locuteur de la conversation, nous démontrons les inefficacités des méthodes existantes telles que les modèles pré-entraînés, et proposons une méthode de base simple mais efficace qui exploite un solveur d'optimisation pour utiliser le contexte des deux modalités afin d'obtenir de meilleures performances. Pour la prédiction de la réponse à la conversation, nous affinons les modèles de dialogue génératif sur Friend-MMC, et analysons les avantages de l'information sur le locuteur. Le code et l'ensemble de données sont disponibles publiquement sur https://github.com/yellow-binary-tree/Friends-MMC, et nous appelons donc à accorder plus d'attention à la modélisation de l'information sur le locuteur lors de la compréhension des conversations.
English
Multi-modal multi-party conversation (MMC) is a less studied yet important topic of research due to that it well fits real-world scenarios and thus potentially has more widely-used applications. Compared with the traditional multi-modal conversations, MMC requires stronger character-centered understanding abilities as there are many interlocutors appearing in both the visual and textual context. To facilitate the study of this problem, we present Friends-MMC in this paper, an MMC dataset that contains 24,000+ unique utterances paired with video context. To explore the character-centered understanding of the dialogue, we also annotate the speaker of each utterance, the names and bounding bboxes of faces that appear in the video. Based on this Friends-MMC dataset, we further study two fundamental MMC tasks: conversation speaker identification and conversation response prediction, both of which have the multi-party nature with the video or image as visual context. For conversation speaker identification, we demonstrate the inefficiencies of existing methods such as pre-trained models, and propose a simple yet effective baseline method that leverages an optimization solver to utilize the context of two modalities to achieve better performance. For conversation response prediction, we fine-tune generative dialogue models on Friend-MMC, and analyze the benefits of speaker information. The code and dataset is publicly available at https://github.com/yellow-binary-tree/Friends-MMC and thus we call for more attention on modeling speaker information when understanding conversations.

Summary

AI-Generated Summary

PDF92December 24, 2024