ChatPaper.aiChatPaper

VideoEspresso: Een grootschalige dataset van ketendenken voor gedetailleerde videoredenering via kernframe-selectie.

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

November 22, 2024
Auteurs: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
cs.AI

Samenvatting

De vooruitgang van Grote Visie Taalmodellen (GVTM's) heeft aanzienlijk bijgedragen aan multimodale begripsvorming, maar er blijven uitdagingen bestaan bij videoredeneertaken vanwege het gebrek aan hoogwaardige, grootschalige datasets. Bestaande datasets voor videovraag-antwoord (VideoQA) vertrouwen vaak op kostbare handmatige annotaties met onvoldoende granulariteit of automatische constructiemethoden met overbodige frame-voor-frame analyse, waardoor hun schaalbaarheid en effectiviteit voor complex redeneren beperkt zijn. Om deze uitdagingen aan te pakken, introduceren we VideoEspresso, een nieuw dataset dat VideoQA-paren bevat met behoud van essentiële ruimtelijke details en temporele coherentie, samen met multimodale annotaties van tussenliggende redeneerstappen. Ons constructieproces maakt gebruik van een semantisch-bewuste methode om redundantie te verminderen, gevolgd door het genereren van QA-paren met behulp van GPT-4o. We ontwikkelen verder video Chain-of-Thought (CoT) annotaties om redeneerprocessen te verrijken, waarbij GPT-4o wordt geleid bij het extraheren van logische relaties uit QA-paren en videomateriaal. Om het potentieel van hoogwaardige VideoQA-paren te benutten, stellen we een Hybride GVTM's Samenwerkingskader voor, met een Frame Selector en een tweefasig instructie-fijnafgestemd redeneer-GVTM. Dit kader selecteert adaptief kernframes en voert CoT-redenering uit met behulp van multimodaal bewijs. Geëvalueerd op onze voorgestelde benchmark met 14 taken tegen 9 populaire GVTM's, presteert onze methode beter dan bestaande baselines bij de meeste taken, waarbij superieure videoredeneervaardigheden worden gedemonstreerd. Onze code en dataset worden vrijgegeven op: https://github.com/hshjerry/VideoEspresso
English
The advancement of Large Vision Language Models (LVLMs) has significantly improved multimodal understanding, yet challenges remain in video reasoning tasks due to the scarcity of high-quality, large-scale datasets. Existing video question-answering (VideoQA) datasets often rely on costly manual annotations with insufficient granularity or automatic construction methods with redundant frame-by-frame analysis, limiting their scalability and effectiveness for complex reasoning. To address these challenges, we introduce VideoEspresso, a novel dataset that features VideoQA pairs preserving essential spatial details and temporal coherence, along with multimodal annotations of intermediate reasoning steps. Our construction pipeline employs a semantic-aware method to reduce redundancy, followed by generating QA pairs using GPT-4o. We further develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes, guiding GPT-4o in extracting logical relationships from QA pairs and video content. To exploit the potential of high-quality VideoQA pairs, we propose a Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a two-stage instruction fine-tuned reasoning LVLM. This framework adaptively selects core frames and performs CoT reasoning using multimodal evidence. Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our method outperforms existing baselines on most tasks, demonstrating superior video reasoning capabilities. Our code and dataset will be released at: https://github.com/hshjerry/VideoEspresso

Summary

AI-Generated Summary

PDF133November 25, 2024