ChatPaper.aiChatPaper

VideoEspresso: Un conjunto de datos a gran escala de cadena de pensamiento para razonamiento de video detallado a través de la selección de marcos centrales.

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

November 22, 2024
Autores: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
cs.AI

Resumen

El avance de los Modelos de Lenguaje de Visión Amplia (LVLMs, por sus siglas en inglés) ha mejorado significativamente la comprensión multimodal, sin embargo, persisten desafíos en tareas de razonamiento de video debido a la escasez de conjuntos de datos a gran escala y de alta calidad. Los conjuntos de datos existentes de preguntas y respuestas de video (VideoQA) a menudo dependen de anotaciones manuales costosas con una granularidad insuficiente o de métodos de construcción automática con un análisis redundante de fotograma por fotograma, lo que limita su escalabilidad y efectividad para el razonamiento complejo. Para abordar estos desafíos, presentamos VideoEspresso, un nuevo conjunto de datos que incluye pares de VideoQA que conservan detalles espaciales esenciales y coherencia temporal, junto con anotaciones multimodales de pasos de razonamiento intermedios. Nuestro proceso de construcción emplea un método consciente de la semántica para reducir la redundancia, seguido por la generación de pares de preguntas y respuestas utilizando GPT-4o. Además, desarrollamos anotaciones de Cadena de Pensamiento (CoT) de video para enriquecer los procesos de razonamiento, guiando a GPT-4o en la extracción de relaciones lógicas de los pares de preguntas y respuestas y del contenido del video. Para aprovechar el potencial de los pares de VideoQA de alta calidad, proponemos un marco de Colaboración de LVLMs Híbridos, que incluye un Selector de Fotogramas y un LVLM de razonamiento afinado por instrucciones en dos etapas. Este marco selecciona de forma adaptativa fotogramas clave y realiza razonamiento CoT utilizando evidencia multimodal. Evaluado en nuestro banco de pruebas propuesto con 14 tareas frente a 9 LVLMs populares, nuestro método supera a las líneas de base existentes en la mayoría de las tareas, demostrando capacidades superiores de razonamiento de video. Nuestro código y conjunto de datos se publicarán en: https://github.com/hshjerry/VideoEspresso
English
The advancement of Large Vision Language Models (LVLMs) has significantly improved multimodal understanding, yet challenges remain in video reasoning tasks due to the scarcity of high-quality, large-scale datasets. Existing video question-answering (VideoQA) datasets often rely on costly manual annotations with insufficient granularity or automatic construction methods with redundant frame-by-frame analysis, limiting their scalability and effectiveness for complex reasoning. To address these challenges, we introduce VideoEspresso, a novel dataset that features VideoQA pairs preserving essential spatial details and temporal coherence, along with multimodal annotations of intermediate reasoning steps. Our construction pipeline employs a semantic-aware method to reduce redundancy, followed by generating QA pairs using GPT-4o. We further develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes, guiding GPT-4o in extracting logical relationships from QA pairs and video content. To exploit the potential of high-quality VideoQA pairs, we propose a Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a two-stage instruction fine-tuned reasoning LVLM. This framework adaptively selects core frames and performs CoT reasoning using multimodal evidence. Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our method outperforms existing baselines on most tasks, demonstrating superior video reasoning capabilities. Our code and dataset will be released at: https://github.com/hshjerry/VideoEspresso

Summary

AI-Generated Summary

PDF133November 25, 2024