SALOVA: Asistente de Video Largo con Segmentos para Recuperación Dirigida y Enrutamiento en el Análisis de Videos de Formato Largo
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis
November 25, 2024
Autores: Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
cs.AI
Resumen
A pesar de los avances en los Modelos Multimodales Grandes, aplicarlos a contenido de video largo y sin recortar sigue siendo un desafío debido a limitaciones en la longitud del contexto y la sobrecarga de memoria sustancial. Estas restricciones a menudo resultan en una pérdida significativa de información y una reducción de la relevancia en las respuestas del modelo. Con el crecimiento exponencial de datos de video en plataformas web, comprender videos de formato largo es crucial para avanzar en la inteligencia generalizada. En este documento, presentamos SALOVA: Asistente de Video Largo con Segmentos Aumentados, un marco de trabajo de video-LLM novedoso diseñado para mejorar la comprensión de contenido de video extenso a través de un proceso de recuperación dirigido. Abordamos dos desafíos principales para lograrlo: (i) Presentamos el conjunto de datos SceneWalk, una colección de alta calidad de 87.8K videos largos, cada uno densamente subtitulado a nivel de segmento para permitir que los modelos capturen la continuidad de escenas y mantengan un contexto descriptivo rico. (ii) Desarrollamos diseños arquitectónicos robustos que integran un mecanismo de enrutamiento dinámico y un proyector espacio-temporal para recuperar y procesar eficientemente segmentos de video relevantes basados en consultas de usuario. Nuestro marco de trabajo mitiga las limitaciones de los video-LMM actuales al permitir la identificación precisa y recuperación de segmentos de video relevantes en respuesta a consultas, mejorando así la relevancia contextual de las respuestas generadas. A través de experimentos extensos, SALOVA demuestra una capacidad mejorada en el procesamiento de videos complejos de formato largo, mostrando una capacidad significativa para mantener la integridad contextual a lo largo de secuencias extendidas.
English
Despite advances in Large Multi-modal Models, applying them to long and
untrimmed video content remains challenging due to limitations in context
length and substantial memory overhead. These constraints often lead to
significant information loss and reduced relevance in the model responses. With
the exponential growth of video data across web platforms, understanding
long-form video is crucial for advancing generalized intelligence. In this
paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel
video-LLM framework designed to enhance the comprehension of lengthy video
content through targeted retrieval process. We address two main challenges to
achieve it: (i) We present the SceneWalk dataset, a high-quality collection of
87.8K long videos, each densely captioned at the segment level to enable models
to capture scene continuity and maintain rich descriptive context. (ii) We
develop robust architectural designs integrating dynamic routing mechanism and
spatio-temporal projector to efficiently retrieve and process relevant video
segments based on user queries. Our framework mitigates the limitations of
current video-LMMs by allowing for precise identification and retrieval of
relevant video segments in response to queries, thereby improving the
contextual relevance of the generated responses. Through extensive experiments,
SALOVA demonstrates enhanced capability in processing complex long-form videos,
showing significant capability to maintain contextual integrity across extended
sequences.Summary
AI-Generated Summary