ChatPaper.aiChatPaper

AuroraCap: Efficiënte, prestatiegerichte gedetailleerde ondertiteling van video's en een nieuwe benchmark

AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

October 4, 2024
Auteurs: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI

Samenvatting

Het gedetailleerd ondertitelen van video's is een belangrijke taak die tot doel heeft uitgebreide en coherente tekstuele beschrijvingen van video-inhoud te genereren, wat zowel de begrip van video's als de generatie ervan ten goede komt. In dit artikel stellen we AuroraCap voor, een video-ondertitelaar gebaseerd op een groot multimodaal model. We volgen het eenvoudigste architectuurontwerp zonder extra parameters voor temporele modellering. Om de overhead veroorzaakt door lange videosequenties aan te pakken, implementeren we de token-samenvoegingsstrategie, waardoor het aantal invoervisuele tokens wordt verminderd. Verrassend genoeg hebben we ontdekt dat deze strategie leidt tot weinig prestatieverlies. AuroraCap vertoont uitstekende prestaties op verschillende video- en afbeeldingsbijschriftbeproevingen, bijvoorbeeld een CIDEr van 88.9 op Flickr30k, waarbij GPT-4V (55.3) en Gemini-1.5 Pro (82.2) worden overtroffen. Bestaande videobijschriftbeproevingen omvatten echter alleen eenvoudige beschrijvingen, bestaande uit enkele tientallen woorden, wat het onderzoek op dit gebied beperkt. Daarom hebben we VDC ontwikkeld, een benchmark voor gedetailleerd videobijschriften met meer dan duizend zorgvuldig geannoteerde gestructureerde bijschriften. Bovendien stellen we een nieuwe LLM-ondersteunde metriek VDCscore voor ter verbetering van de evaluatie, die een verdeel-en-heersstrategie hanteert om lange bijschriftevaluatie om te zetten in meerdere korte vraag-antwoordparen. Met behulp van menselijke Elo-ranking tonen onze experimenten aan dat deze benchmark beter correleert met menselijke beoordelingen van de kwaliteit van gedetailleerde videobijschriften.
English
Video detailed captioning is a key task which aims to generate comprehensive and coherent textual descriptions of video content, benefiting both video understanding and generation. In this paper, we propose AuroraCap, a video captioner based on a large multimodal model. We follow the simplest architecture design without additional parameters for temporal modeling. To address the overhead caused by lengthy video sequences, we implement the token merging strategy, reducing the number of input visual tokens. Surprisingly, we found that this strategy results in little performance loss. AuroraCap shows superior performance on various video and image captioning benchmarks, for example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include simple descriptions, consisting of a few dozen words, which limits research in this field. Therefore, we develop VDC, a video detailed captioning benchmark with over one thousand carefully annotated structured captions. In addition, we propose a new LLM-assisted metric VDCscore for bettering evaluation, which adopts a divide-and-conquer strategy to transform long caption evaluation into multiple short question-answer pairs. With the help of human Elo ranking, our experiments show that this benchmark better correlates with human judgments of video detailed captioning quality.

Summary

AI-Generated Summary

PDF62November 16, 2024