VideoEspresso: Um conjunto de dados em grande escala de cadeias de pensamento para raciocínio de vídeo detalhado através da seleção de quadros principais
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection
November 22, 2024
Autores: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
cs.AI
Resumo
O avanço dos Modelos de Linguagem de Visão Ampliada (LVLMs) melhorou significativamente a compreensão multimodal, no entanto, desafios persistem em tarefas de raciocínio de vídeo devido à escassez de conjuntos de dados em grande escala e de alta qualidade. Conjuntos de dados existentes de perguntas e respostas em vídeo (VideoQA) frequentemente dependem de anotações manuais custosas com granularidade insuficiente ou de métodos de construção automática com análise redundante quadro a quadro, limitando sua escalabilidade e eficácia para raciocínios complexos. Para enfrentar esses desafios, apresentamos o VideoEspresso, um novo conjunto de dados que apresenta pares de VideoQA preservando detalhes espaciais essenciais e coerência temporal, juntamente com anotações multimodais de etapas de raciocínio intermediárias. Nosso pipeline de construção emprega um método consciente de semântica para reduzir a redundância, seguido pela geração de pares de perguntas e respostas usando o GPT-4o. Desenvolvemos ainda anotações de Cadeia de Pensamento em vídeo (CoT) para enriquecer os processos de raciocínio, orientando o GPT-4o na extração de relações lógicas dos pares de perguntas e respostas e do conteúdo em vídeo. Para explorar o potencial de pares de VideoQA de alta qualidade, propomos um framework de Colaboração de LVLMs Híbridos, apresentando um Seletor de Quadros e um LVLM de raciocínio ajustado por instrução em duas etapas. Este framework seleciona de forma adaptativa quadros principais e realiza raciocínio CoT usando evidências multimodais. Avaliado em nosso benchmark proposto com 14 tarefas em comparação com 9 LVLMs populares, nosso método supera as baselines existentes na maioria das tarefas, demonstrando capacidades superiores de raciocínio em vídeo. Nosso código e conjunto de dados serão disponibilizados em: https://github.com/hshjerry/VideoEspresso
English
The advancement of Large Vision Language Models (LVLMs) has significantly
improved multimodal understanding, yet challenges remain in video reasoning
tasks due to the scarcity of high-quality, large-scale datasets. Existing video
question-answering (VideoQA) datasets often rely on costly manual annotations
with insufficient granularity or automatic construction methods with redundant
frame-by-frame analysis, limiting their scalability and effectiveness for
complex reasoning. To address these challenges, we introduce VideoEspresso, a
novel dataset that features VideoQA pairs preserving essential spatial details
and temporal coherence, along with multimodal annotations of intermediate
reasoning steps. Our construction pipeline employs a semantic-aware method to
reduce redundancy, followed by generating QA pairs using GPT-4o. We further
develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes,
guiding GPT-4o in extracting logical relationships from QA pairs and video
content. To exploit the potential of high-quality VideoQA pairs, we propose a
Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a
two-stage instruction fine-tuned reasoning LVLM. This framework adaptively
selects core frames and performs CoT reasoning using multimodal evidence.
Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our
method outperforms existing baselines on most tasks, demonstrating superior
video reasoning capabilities. Our code and dataset will be released at:
https://github.com/hshjerry/VideoEspressoSummary
AI-Generated Summary