ChatPaper.aiChatPaper

Liberando el Entrenamiento de Videos a Escala Horaria para la Comprensión de Videos-Lenguaje de Larga Duración

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

June 5, 2025
Autores: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI

Resumen

Los recientes puntos de referencia para la comprensión de videos de larga duración han impulsado avances en los modelos multimodales de gran escala para video (Video-LMMs). Sin embargo, la escasez de videos largos bien anotados ha dejado poco explorado el entrenamiento de Video-LLMs de una hora de duración. Para cerrar esta brecha, presentamos VideoMarathon, un conjunto de datos a gran escala de instrucciones para videos de una hora. Este conjunto de datos incluye alrededor de 9,700 horas de videos largos obtenidos de diversos dominios, con duraciones que van de 3 a 60 minutos por video. Específicamente, contiene 3.3 millones de pares de preguntas y respuestas de alta calidad, abarcando seis temas fundamentales: temporalidad, espacialidad, objeto, acción, escena y evento. En comparación con los conjuntos de datos de instrucción de video existentes, VideoMarathon extiende significativamente las duraciones de los videos de entrenamiento hasta una hora y admite 22 tareas diversas que requieren comprensión de video tanto a corto como a largo plazo. Basándonos en VideoMarathon, proponemos Hour-LLaVA, un Video-LMM potente y eficiente para el modelado de lenguaje-video a escala de una hora. Permite el entrenamiento y la inferencia de videos de una hora con un muestreo de 1-FPS al aprovechar un módulo de aumento de memoria, que integra de manera adaptativa semánticas relevantes para la pregunta del usuario e informativas espacio-temporales a partir de un contexto completo de video almacenado en caché. En nuestros experimentos, Hour-LLaVA logra el mejor rendimiento en múltiples puntos de referencia de lenguaje-video de larga duración, demostrando la alta calidad del conjunto de datos VideoMarathon y la superioridad del modelo Hour-LLaVA.
English
Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.
PDF31June 6, 2025