ChatPaper.aiChatPaper

Une vidéo vaut 4096 tokens : Verbaliser les vidéos narratives pour les comprendre en Zero Shot

A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

May 16, 2023
Auteurs: Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen
cs.AI

Résumé

Le contenu multimédia, tel que les publicités et les vidéos narratives, présente une riche combinaison de créativité et de multiples modalités. Il intègre des éléments comme le texte, les visuels, l'audio et les techniques de narration, en utilisant des dispositifs tels que les émotions, le symbolisme et les slogans pour transmettre du sens. Alors que les recherches précédentes sur la compréhension multimédia se sont principalement concentrées sur des vidéos présentant des actions spécifiques comme la cuisine, il existe un manque de grands ensembles de données d'entraînement annotés, ce qui entrave le développement de modèles d'apprentissage supervisé offrant des performances satisfaisantes pour des applications réelles. Cependant, l'émergence des grands modèles de langage (LLMs) a montré des performances remarquables en zero-shot dans diverses tâches de traitement du langage naturel (NLP), telles que la classification des émotions, la réponse à des questions et la classification thématique. Pour combler cet écart de performance dans la compréhension multimédia, nous proposons de verbaliser les vidéos narratives pour générer leurs descriptions en langage naturel, puis d'effectuer des tâches de compréhension vidéo sur l'histoire générée plutôt que sur la vidéo originale. À travers des expériences approfondies sur cinq tâches de compréhension vidéo, nous démontrons que notre méthode, bien qu'en zero-shot, obtient des résultats significativement meilleurs que les bases de référence supervisées pour la compréhension vidéo. De plus, pour pallier le manque de benchmarks en compréhension narrative, nous rendons public le premier ensemble de données sur une tâche cruciale en sciences sociales computationnelles : l'identification des stratégies de persuasion.
English
Multimedia content, such as advertisements and story videos, exhibit a rich blend of creativity and multiple modalities. They incorporate elements like text, visuals, audio, and storytelling techniques, employing devices like emotions, symbolism, and slogans to convey meaning. While previous research in multimedia understanding has focused mainly on videos with specific actions like cooking, there is a dearth of large annotated training datasets, hindering the development of supervised learning models with satisfactory performance for real-world applications. However, the rise of large language models (LLMs) has witnessed remarkable zero-shot performance in various natural language processing (NLP) tasks, such as emotion classification, question-answering, and topic classification. To bridge this performance gap in multimedia understanding, we propose verbalizing story videos to generate their descriptions in natural language and then performing video-understanding tasks on the generated story as opposed to the original video. Through extensive experiments on five video-understanding tasks, we demonstrate that our method, despite being zero-shot, achieves significantly better results than supervised baselines for video understanding. Further, alleviating a lack of story understanding benchmarks, we publicly release the first dataset on a crucial task in computational social science, persuasion strategy identification.
PDF11December 15, 2024