VideoEspresso: Un conjunto de datos a gran escala de cadena de pensamiento para razonamiento de video detallado a través de la selección de marcos centrales.
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection
November 22, 2024
Autores: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
cs.AI
Resumen
El avance de los Modelos de Lenguaje de Visión Amplia (LVLMs, por sus siglas en inglés) ha mejorado significativamente la comprensión multimodal, sin embargo, persisten desafíos en tareas de razonamiento de video debido a la escasez de conjuntos de datos a gran escala y de alta calidad. Los conjuntos de datos existentes de preguntas y respuestas de video (VideoQA) a menudo dependen de anotaciones manuales costosas con una granularidad insuficiente o de métodos de construcción automática con un análisis redundante de fotograma por fotograma, lo que limita su escalabilidad y efectividad para el razonamiento complejo. Para abordar estos desafíos, presentamos VideoEspresso, un nuevo conjunto de datos que incluye pares de VideoQA que conservan detalles espaciales esenciales y coherencia temporal, junto con anotaciones multimodales de pasos de razonamiento intermedios. Nuestro proceso de construcción emplea un método consciente de la semántica para reducir la redundancia, seguido por la generación de pares de preguntas y respuestas utilizando GPT-4o. Además, desarrollamos anotaciones de Cadena de Pensamiento (CoT) de video para enriquecer los procesos de razonamiento, guiando a GPT-4o en la extracción de relaciones lógicas de los pares de preguntas y respuestas y del contenido del video. Para aprovechar el potencial de los pares de VideoQA de alta calidad, proponemos un marco de Colaboración de LVLMs Híbridos, que incluye un Selector de Fotogramas y un LVLM de razonamiento afinado por instrucciones en dos etapas. Este marco selecciona de forma adaptativa fotogramas clave y realiza razonamiento CoT utilizando evidencia multimodal. Evaluado en nuestro banco de pruebas propuesto con 14 tareas frente a 9 LVLMs populares, nuestro método supera a las líneas de base existentes en la mayoría de las tareas, demostrando capacidades superiores de razonamiento de video. Nuestro código y conjunto de datos se publicarán en: https://github.com/hshjerry/VideoEspresso
English
The advancement of Large Vision Language Models (LVLMs) has significantly
improved multimodal understanding, yet challenges remain in video reasoning
tasks due to the scarcity of high-quality, large-scale datasets. Existing video
question-answering (VideoQA) datasets often rely on costly manual annotations
with insufficient granularity or automatic construction methods with redundant
frame-by-frame analysis, limiting their scalability and effectiveness for
complex reasoning. To address these challenges, we introduce VideoEspresso, a
novel dataset that features VideoQA pairs preserving essential spatial details
and temporal coherence, along with multimodal annotations of intermediate
reasoning steps. Our construction pipeline employs a semantic-aware method to
reduce redundancy, followed by generating QA pairs using GPT-4o. We further
develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes,
guiding GPT-4o in extracting logical relationships from QA pairs and video
content. To exploit the potential of high-quality VideoQA pairs, we propose a
Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a
two-stage instruction fine-tuned reasoning LVLM. This framework adaptively
selects core frames and performs CoT reasoning using multimodal evidence.
Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our
method outperforms existing baselines on most tasks, demonstrating superior
video reasoning capabilities. Our code and dataset will be released at:
https://github.com/hshjerry/VideoEspressoSummary
AI-Generated Summary