VideoEspresso : un ensemble de données à grande échelle en chaîne de pensée pour le raisonnement vidéo à grain fin via la sélection de cadres centraux

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

November 22, 2024
Auteurs: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
cs.AI

Résumé

L'avancée des Modèles de Langage de Vision à Grande Échelle (LVLMs) a considérablement amélioré la compréhension multimodale, cependant des défis persistent dans les tâches de raisonnement vidéo en raison de la rareté des ensembles de données à grande échelle de haute qualité. Les ensembles de données de question-réponse vidéo (VideoQA) existants s'appuient souvent sur des annotations manuelles coûteuses avec une granularité insuffisante ou des méthodes de construction automatique avec une analyse redondante image par image, limitant leur extensibilité et leur efficacité pour un raisonnement complexe. Pour relever ces défis, nous présentons VideoEspresso, un nouvel ensemble de données qui propose des paires VideoQA préservant des détails spatiaux essentiels et une cohérence temporelle, ainsi que des annotations multimodales des étapes de raisonnement intermédiaires. Notre pipeline de construction utilise une méthode consciente de la sémantique pour réduire la redondance, suivi de la génération de paires de questions-réponses en utilisant GPT-4o. Nous développons en outre des annotations vidéo Chain-of-Thought (CoT) pour enrichir les processus de raisonnement, guidant GPT-4o dans l'extraction des relations logiques à partir des paires de questions-réponses et du contenu vidéo. Pour exploiter le potentiel des paires VideoQA de haute qualité, nous proposons un cadre de Collaboration Hybride de LVLMs, comprenant un Sélecteur de Cadre et un LVLM de raisonnement fine-tuné en deux étapes. Ce cadre sélectionne de manière adaptative les images clés et effectue un raisonnement CoT en utilisant des preuves multimodales. Évaluée sur notre banc d'essai proposé avec 14 tâches contre 9 LVLMs populaires, notre méthode surpasse les références existantes sur la plupart des tâches, démontrant des capacités de raisonnement vidéo supérieures. Notre code et notre ensemble de données seront publiés sur : https://github.com/hshjerry/VideoEspresso
English
The advancement of Large Vision Language Models (LVLMs) has significantly improved multimodal understanding, yet challenges remain in video reasoning tasks due to the scarcity of high-quality, large-scale datasets. Existing video question-answering (VideoQA) datasets often rely on costly manual annotations with insufficient granularity or automatic construction methods with redundant frame-by-frame analysis, limiting their scalability and effectiveness for complex reasoning. To address these challenges, we introduce VideoEspresso, a novel dataset that features VideoQA pairs preserving essential spatial details and temporal coherence, along with multimodal annotations of intermediate reasoning steps. Our construction pipeline employs a semantic-aware method to reduce redundancy, followed by generating QA pairs using GPT-4o. We further develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes, guiding GPT-4o in extracting logical relationships from QA pairs and video content. To exploit the potential of high-quality VideoQA pairs, we propose a Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a two-stage instruction fine-tuned reasoning LVLM. This framework adaptively selects core frames and performs CoT reasoning using multimodal evidence. Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our method outperforms existing baselines on most tasks, demonstrating superior video reasoning capabilities. Our code and dataset will be released at: https://github.com/hshjerry/VideoEspresso
PDF133November 25, 2024