VideoEspresso: Um conjunto de dados em grande escala de cadeias de pensamento para raciocínio de vídeo detalhado através da seleção de quadros principais

Resumo

O avanço dos Modelos de Linguagem de Visão Ampliada (LVLMs) melhorou significativamente a compreensão multimodal, no entanto, desafios persistem em tarefas de raciocínio de vídeo devido à escassez de conjuntos de dados em grande escala e de alta qualidade. Conjuntos de dados existentes de perguntas e respostas em vídeo (VideoQA) frequentemente dependem de anotações manuais custosas com granularidade insuficiente ou de métodos de construção automática com análise redundante quadro a quadro, limitando sua escalabilidade e eficácia para raciocínios complexos. Para enfrentar esses desafios, apresentamos o VideoEspresso, um novo conjunto de dados que apresenta pares de VideoQA preservando detalhes espaciais essenciais e coerência temporal, juntamente com anotações multimodais de etapas de raciocínio intermediárias. Nosso pipeline de construção emprega um método consciente de semântica para reduzir a redundância, seguido pela geração de pares de perguntas e respostas usando o GPT-4o. Desenvolvemos ainda anotações de Cadeia de Pensamento em vídeo (CoT) para enriquecer os processos de raciocínio, orientando o GPT-4o na extração de relações lógicas dos pares de perguntas e respostas e do conteúdo em vídeo. Para explorar o potencial de pares de VideoQA de alta qualidade, propomos um framework de Colaboração de LVLMs Híbridos, apresentando um Seletor de Quadros e um LVLM de raciocínio ajustado por instrução em duas etapas. Este framework seleciona de forma adaptativa quadros principais e realiza raciocínio CoT usando evidências multimodais. Avaliado em nosso benchmark proposto com 14 tarefas em comparação com 9 LVLMs populares, nosso método supera as baselines existentes na maioria das tarefas, demonstrando capacidades superiores de raciocínio em vídeo. Nosso código e conjunto de dados serão disponibilizados em: https://github.com/hshjerry/VideoEspresso

English

The advancement of Large Vision Language Models (LVLMs) has significantly improved multimodal understanding, yet challenges remain in video reasoning tasks due to the scarcity of high-quality, large-scale datasets. Existing video question-answering (VideoQA) datasets often rely on costly manual annotations with insufficient granularity or automatic construction methods with redundant frame-by-frame analysis, limiting their scalability and effectiveness for complex reasoning. To address these challenges, we introduce VideoEspresso, a novel dataset that features VideoQA pairs preserving essential spatial details and temporal coherence, along with multimodal annotations of intermediate reasoning steps. Our construction pipeline employs a semantic-aware method to reduce redundancy, followed by generating QA pairs using GPT-4o. We further develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes, guiding GPT-4o in extracting logical relationships from QA pairs and video content. To exploit the potential of high-quality VideoQA pairs, we propose a Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a two-stage instruction fine-tuned reasoning LVLM. This framework adaptively selects core frames and performs CoT reasoning using multimodal evidence. Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our method outperforms existing baselines on most tasks, demonstrating superior video reasoning capabilities. Our code and dataset will be released at: https://github.com/hshjerry/VideoEspresso

VideoEspresso: Um conjunto de dados em grande escala de cadeias de pensamento para raciocínio de vídeo detalhado através da seleção de quadros principais

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Resumo

Support