Une vidéo vaut 4096 tokens : Verbaliser les vidéos narratives pour les comprendre en Zero Shot
A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot
May 16, 2023
Auteurs: Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen
cs.AI
Résumé
Le contenu multimédia, tel que les publicités et les vidéos narratives, présente une riche combinaison de créativité et de multiples modalités. Il intègre des éléments comme le texte, les visuels, l'audio et les techniques de narration, en utilisant des dispositifs tels que les émotions, le symbolisme et les slogans pour transmettre du sens. Alors que les recherches précédentes sur la compréhension multimédia se sont principalement concentrées sur des vidéos présentant des actions spécifiques comme la cuisine, il existe un manque de grands ensembles de données d'entraînement annotés, ce qui entrave le développement de modèles d'apprentissage supervisé offrant des performances satisfaisantes pour des applications réelles. Cependant, l'émergence des grands modèles de langage (LLMs) a montré des performances remarquables en zero-shot dans diverses tâches de traitement du langage naturel (NLP), telles que la classification des émotions, la réponse à des questions et la classification thématique. Pour combler cet écart de performance dans la compréhension multimédia, nous proposons de verbaliser les vidéos narratives pour générer leurs descriptions en langage naturel, puis d'effectuer des tâches de compréhension vidéo sur l'histoire générée plutôt que sur la vidéo originale. À travers des expériences approfondies sur cinq tâches de compréhension vidéo, nous démontrons que notre méthode, bien qu'en zero-shot, obtient des résultats significativement meilleurs que les bases de référence supervisées pour la compréhension vidéo. De plus, pour pallier le manque de benchmarks en compréhension narrative, nous rendons public le premier ensemble de données sur une tâche cruciale en sciences sociales computationnelles : l'identification des stratégies de persuasion.
English
Multimedia content, such as advertisements and story videos, exhibit a rich
blend of creativity and multiple modalities. They incorporate elements like
text, visuals, audio, and storytelling techniques, employing devices like
emotions, symbolism, and slogans to convey meaning. While previous research in
multimedia understanding has focused mainly on videos with specific actions
like cooking, there is a dearth of large annotated training datasets, hindering
the development of supervised learning models with satisfactory performance for
real-world applications. However, the rise of large language models (LLMs) has
witnessed remarkable zero-shot performance in various natural language
processing (NLP) tasks, such as emotion classification, question-answering, and
topic classification. To bridge this performance gap in multimedia
understanding, we propose verbalizing story videos to generate their
descriptions in natural language and then performing video-understanding tasks
on the generated story as opposed to the original video. Through extensive
experiments on five video-understanding tasks, we demonstrate that our method,
despite being zero-shot, achieves significantly better results than supervised
baselines for video understanding. Further, alleviating a lack of story
understanding benchmarks, we publicly release the first dataset on a crucial
task in computational social science, persuasion strategy identification.