AuroraCap: Efficiënte, prestatiegerichte gedetailleerde ondertiteling van video's en een nieuwe benchmark
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
October 4, 2024
Auteurs: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI
Samenvatting
Het gedetailleerd ondertitelen van video's is een belangrijke taak die tot doel heeft uitgebreide en coherente tekstuele beschrijvingen van video-inhoud te genereren, wat zowel de begrip van video's als de generatie ervan ten goede komt. In dit artikel stellen we AuroraCap voor, een video-ondertitelaar gebaseerd op een groot multimodaal model. We volgen het eenvoudigste architectuurontwerp zonder extra parameters voor temporele modellering. Om de overhead veroorzaakt door lange videosequenties aan te pakken, implementeren we de token-samenvoegingsstrategie, waardoor het aantal invoervisuele tokens wordt verminderd. Verrassend genoeg hebben we ontdekt dat deze strategie leidt tot weinig prestatieverlies. AuroraCap vertoont uitstekende prestaties op verschillende video- en afbeeldingsbijschriftbeproevingen, bijvoorbeeld een CIDEr van 88.9 op Flickr30k, waarbij GPT-4V (55.3) en Gemini-1.5 Pro (82.2) worden overtroffen. Bestaande videobijschriftbeproevingen omvatten echter alleen eenvoudige beschrijvingen, bestaande uit enkele tientallen woorden, wat het onderzoek op dit gebied beperkt. Daarom hebben we VDC ontwikkeld, een benchmark voor gedetailleerd videobijschriften met meer dan duizend zorgvuldig geannoteerde gestructureerde bijschriften. Bovendien stellen we een nieuwe LLM-ondersteunde metriek VDCscore voor ter verbetering van de evaluatie, die een verdeel-en-heersstrategie hanteert om lange bijschriftevaluatie om te zetten in meerdere korte vraag-antwoordparen. Met behulp van menselijke Elo-ranking tonen onze experimenten aan dat deze benchmark beter correleert met menselijke beoordelingen van de kwaliteit van gedetailleerde videobijschriften.
English
Video detailed captioning is a key task which aims to generate comprehensive
and coherent textual descriptions of video content, benefiting both video
understanding and generation. In this paper, we propose AuroraCap, a video
captioner based on a large multimodal model. We follow the simplest
architecture design without additional parameters for temporal modeling. To
address the overhead caused by lengthy video sequences, we implement the token
merging strategy, reducing the number of input visual tokens. Surprisingly, we
found that this strategy results in little performance loss. AuroraCap shows
superior performance on various video and image captioning benchmarks, for
example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and
Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include
simple descriptions, consisting of a few dozen words, which limits research in
this field. Therefore, we develop VDC, a video detailed captioning benchmark
with over one thousand carefully annotated structured captions. In addition, we
propose a new LLM-assisted metric VDCscore for bettering evaluation, which
adopts a divide-and-conquer strategy to transform long caption evaluation into
multiple short question-answer pairs. With the help of human Elo ranking, our
experiments show that this benchmark better correlates with human judgments of
video detailed captioning quality.Summary
AI-Generated Summary