Een Video Is 4096 Tokens Waard: Verbaal Storyvideo's Om Ze Te Begrijpen In Zero Shot
A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot
May 16, 2023
Auteurs: Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen
cs.AI
Samenvatting
Multimediale inhoud, zoals advertenties en verhalende video's, vertoont een rijke mix van creativiteit en meerdere modaliteiten. Ze bevatten elementen zoals tekst, beeldmateriaal, audio en verteltechnieken, waarbij gebruik wordt gemaakt van middelen zoals emoties, symboliek en slogans om betekenis over te brengen. Hoewel eerder onderzoek op het gebied van multimedia-begrip zich voornamelijk heeft gericht op video's met specifieke handelingen zoals koken, is er een gebrek aan grote, geannoteerde trainingsdatasets, wat de ontwikkeling van supervised learning-modellen met bevredigende prestaties voor real-world toepassingen belemmert. De opkomst van grote taalmodellen (LLMs) heeft echter opmerkelijke zero-shot prestaties laten zien in verschillende taken binnen natuurlijke taalverwerking (NLP), zoals emotieclassificatie, vraag-antwoordtaken en onderwerpsclassificatie. Om deze prestatiekloof in multimedia-begrip te overbruggen, stellen we voor om verhalende video's te verbaliseren en hun beschrijvingen in natuurlijke taal te genereren, waarna video-begriptaken worden uitgevoerd op het gegenereerde verhaal in plaats van op de originele video. Door middel van uitgebreide experimenten op vijf video-begriptaken tonen we aan dat onze methode, ondanks dat het zero-shot is, aanzienlijk betere resultaten behaalt dan supervised baselines voor video-begrip. Verlichtend het gebrek aan benchmarks voor verhalenbegrip, maken we de eerste dataset openbaar over een cruciale taak in computationele sociale wetenschappen: het identificeren van overtuigingsstrategieën.
English
Multimedia content, such as advertisements and story videos, exhibit a rich
blend of creativity and multiple modalities. They incorporate elements like
text, visuals, audio, and storytelling techniques, employing devices like
emotions, symbolism, and slogans to convey meaning. While previous research in
multimedia understanding has focused mainly on videos with specific actions
like cooking, there is a dearth of large annotated training datasets, hindering
the development of supervised learning models with satisfactory performance for
real-world applications. However, the rise of large language models (LLMs) has
witnessed remarkable zero-shot performance in various natural language
processing (NLP) tasks, such as emotion classification, question-answering, and
topic classification. To bridge this performance gap in multimedia
understanding, we propose verbalizing story videos to generate their
descriptions in natural language and then performing video-understanding tasks
on the generated story as opposed to the original video. Through extensive
experiments on five video-understanding tasks, we demonstrate that our method,
despite being zero-shot, achieves significantly better results than supervised
baselines for video understanding. Further, alleviating a lack of story
understanding benchmarks, we publicly release the first dataset on a crucial
task in computational social science, persuasion strategy identification.