Liberando o Treinamento de Vídeos em Escala Horária para a Compreensão de Vídeos Longos em Linguagem
Unleashing Hour-Scale Video Training for Long Video-Language Understanding
June 5, 2025
Autores: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI
Resumo
Os recentes benchmarks de compreensão de vídeo e linguagem de longa duração têm impulsionado o progresso em modelos multimodais de grande escala para vídeo (Video-LMMs). No entanto, a escassez de vídeos longos bem anotados deixou o treinamento de Video-LLMs de longa duração pouco explorado. Para preencher essa lacuna, apresentamos o VideoMarathon, um conjunto de dados em grande escala de instruções de vídeo de longa duração. Este conjunto de dados inclui aproximadamente 9.700 horas de vídeos longos provenientes de diversos domínios, variando de 3 a 60 minutos por vídeo. Especificamente, ele contém 3,3 milhões de pares de perguntas e respostas de alta qualidade, abrangendo seis tópicos fundamentais: temporalidade, espacialidade, objeto, ação, cenário e evento. Em comparação com os conjuntos de dados de instrução de vídeo existentes, o VideoMarathon estende significativamente a duração dos vídeos de treinamento para até 1 hora e suporta 22 tarefas diversas que exigem compreensão de vídeo tanto de curto quanto de longo prazo. Com base no VideoMarathon, propomos o Hour-LLaVA, um Video-LMM poderoso e eficiente para modelagem de vídeo e linguagem em escala de horas. Ele permite o treinamento e inferência de vídeos de longa duração com amostragem de 1-FPS, aproveitando um módulo de aumento de memória que integra de forma adaptativa a semântica relevante para a pergunta do usuário e informativa em termos espaço-temporais a partir de um contexto de vídeo completo armazenado em cache. Em nossos experimentos, o Hour-LLaVA alcança o melhor desempenho em vários benchmarks de vídeo e linguagem de longa duração, demonstrando a alta qualidade do conjunto de dados VideoMarathon e a superioridade do modelo Hour-LLaVA.
English
Recent long-form video-language understanding benchmarks have driven progress
in video large multimodal models (Video-LMMs). However, the scarcity of
well-annotated long videos has left the training of hour-long Video-LLMs
underexplored. To close this gap, we present VideoMarathon, a large-scale
hour-long video instruction-following dataset. This dataset includes around
9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60
minutes per video. Specifically, it contains 3.3M high-quality QA pairs,
spanning six fundamental topics: temporality, spatiality, object, action,
scene, and event. Compared to existing video instruction datasets,
VideoMarathon significantly extends training video durations up to 1 hour, and
supports 22 diverse tasks requiring both short- and long-term video
comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and
efficient Video-LMM for hour-scale video-language modeling. It enables
hour-long video training and inference at 1-FPS sampling by leveraging a memory
augmentation module, which adaptively integrates user question-relevant and
spatiotemporal-informative semantics from a cached full video context. In our
experiments, Hour-LLaVA achieves the best performance on multiple long
video-language benchmarks, demonstrating the high quality of the VideoMarathon
dataset and the superiority of the Hour-LLaVA model.