VideoEspresso: крупномасштабный набор данных Chain-of-Thought для тонкой видео-рассуждения через выбор основных кадров
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection
November 22, 2024
Авторы: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
cs.AI
Аннотация
Развитие моделей больших мультимодальных языковых моделей (LVLM) значительно улучшило мультимодальное понимание, однако остаются вызовы в задачах видеоразмышлений из-за недостатка качественных крупномасштабных наборов данных. Существующие наборы данных видеовопросов-ответов (VideoQA) часто зависят от дорогостоящих ручных аннотаций с недостаточной детализацией или автоматических методов создания с избыточным анализом кадр за кадром, что ограничивает их масштабируемость и эффективность для сложного рассуждения. Для решения этих вызовов мы представляем VideoEspresso, новый набор данных, который содержит пары VideoQA, сохраняющие важные пространственные детали и временную согласованность, а также мультимодальные аннотации промежуточных шагов рассуждения. Наша методика создания использует семантически осознанный метод для сокращения избыточности, за которым следует генерация пар вопрос-ответ с использованием GPT-4o. Мы также разрабатываем аннотации видео "Цепочка Мысли" (CoT), чтобы обогатить процессы рассуждения, направляя GPT-4o на извлечение логических связей из пар вопрос-ответ и видеоконтента. Для использования потенциала высококачественных пар VideoQA мы предлагаем гибридную рамочную модель сотрудничества LVLM, включающую Селектор Кадров и LVLM с двухэтапной настройкой рассуждения по инструкциям. Эта модель адаптивно выбирает основные кадры и выполняет рассуждения CoT с использованием мультимодальных доказательств. Протестированная на нашем предложенном бенчмарке с 14 задачами против 9 популярных LVLM, наш метод превосходит существующие базовые уровни по большинству задач, демонстрируя превосходные возможности видеорассуждения. Наш код и набор данных будут опубликованы по адресу: https://github.com/hshjerry/VideoEspresso
English
The advancement of Large Vision Language Models (LVLMs) has significantly
improved multimodal understanding, yet challenges remain in video reasoning
tasks due to the scarcity of high-quality, large-scale datasets. Existing video
question-answering (VideoQA) datasets often rely on costly manual annotations
with insufficient granularity or automatic construction methods with redundant
frame-by-frame analysis, limiting their scalability and effectiveness for
complex reasoning. To address these challenges, we introduce VideoEspresso, a
novel dataset that features VideoQA pairs preserving essential spatial details
and temporal coherence, along with multimodal annotations of intermediate
reasoning steps. Our construction pipeline employs a semantic-aware method to
reduce redundancy, followed by generating QA pairs using GPT-4o. We further
develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes,
guiding GPT-4o in extracting logical relationships from QA pairs and video
content. To exploit the potential of high-quality VideoQA pairs, we propose a
Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a
two-stage instruction fine-tuned reasoning LVLM. This framework adaptively
selects core frames and performs CoT reasoning using multimodal evidence.
Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our
method outperforms existing baselines on most tasks, demonstrating superior
video reasoning capabilities. Our code and dataset will be released at:
https://github.com/hshjerry/VideoEspressoSummary
AI-Generated Summary