Een Video Is 4096 Tokens Waard: Verbaal Storyvideo's Om Ze Te Begrijpen In Zero Shot

Samenvatting

Multimediale inhoud, zoals advertenties en verhalende video's, vertoont een rijke mix van creativiteit en meerdere modaliteiten. Ze bevatten elementen zoals tekst, beeldmateriaal, audio en verteltechnieken, waarbij gebruik wordt gemaakt van middelen zoals emoties, symboliek en slogans om betekenis over te brengen. Hoewel eerder onderzoek op het gebied van multimedia-begrip zich voornamelijk heeft gericht op video's met specifieke handelingen zoals koken, is er een gebrek aan grote, geannoteerde trainingsdatasets, wat de ontwikkeling van supervised learning-modellen met bevredigende prestaties voor real-world toepassingen belemmert. De opkomst van grote taalmodellen (LLMs) heeft echter opmerkelijke zero-shot prestaties laten zien in verschillende taken binnen natuurlijke taalverwerking (NLP), zoals emotieclassificatie, vraag-antwoordtaken en onderwerpsclassificatie. Om deze prestatiekloof in multimedia-begrip te overbruggen, stellen we voor om verhalende video's te verbaliseren en hun beschrijvingen in natuurlijke taal te genereren, waarna video-begriptaken worden uitgevoerd op het gegenereerde verhaal in plaats van op de originele video. Door middel van uitgebreide experimenten op vijf video-begriptaken tonen we aan dat onze methode, ondanks dat het zero-shot is, aanzienlijk betere resultaten behaalt dan supervised baselines voor video-begrip. Verlichtend het gebrek aan benchmarks voor verhalenbegrip, maken we de eerste dataset openbaar over een cruciale taak in computationele sociale wetenschappen: het identificeren van overtuigingsstrategieën.

English

Multimedia content, such as advertisements and story videos, exhibit a rich blend of creativity and multiple modalities. They incorporate elements like text, visuals, audio, and storytelling techniques, employing devices like emotions, symbolism, and slogans to convey meaning. While previous research in multimedia understanding has focused mainly on videos with specific actions like cooking, there is a dearth of large annotated training datasets, hindering the development of supervised learning models with satisfactory performance for real-world applications. However, the rise of large language models (LLMs) has witnessed remarkable zero-shot performance in various natural language processing (NLP) tasks, such as emotion classification, question-answering, and topic classification. To bridge this performance gap in multimedia understanding, we propose verbalizing story videos to generate their descriptions in natural language and then performing video-understanding tasks on the generated story as opposed to the original video. Through extensive experiments on five video-understanding tasks, we demonstrate that our method, despite being zero-shot, achieves significantly better results than supervised baselines for video understanding. Further, alleviating a lack of story understanding benchmarks, we publicly release the first dataset on a crucial task in computational social science, persuasion strategy identification.

Een Video Is 4096 Tokens Waard: Verbaal Storyvideo's Om Ze Te Begrijpen In Zero Shot

A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

Samenvatting

Support