ChatPaper.aiChatPaper

Observa Cada Fotograma de una Vez: Video-Ma^2mba para una Comprensión Eficiente de Videos de Larga Duración con Puntos de Control de Gradiente Multi-eje

Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

November 29, 2024
Autores: Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro
cs.AI

Resumen

Con el creciente tamaño y complejidad de los datos de video, procesar eficientemente secuencias de video largas plantea desafíos significativos debido al aumento cuadrático en las demandas de memoria y computación asociadas con los Modelos Multimodales Grandes (LMMs) basados en transformadores existentes. Para abordar estos problemas, presentamos Video-Ma^2mba, una arquitectura novedosa que incorpora Modelos de Espacio de Estado (SSMs) dentro del marco de Mamba-2, reemplazando los mecanismos de atención. Esto permite que los LMMs escalen linealmente en términos de tiempo y requisitos de memoria, lo que hace factible manejar contenido de video de larga duración. Además, mejoramos la eficiencia de memoria introduciendo el método de Punto de Control de Gradiente Multi-Eje (MA-GC), que gestiona estratégicamente la memoria al retener solo activaciones esenciales en múltiples ejes computacionales. Nuestro enfoque reduce significativamente la huella de memoria en comparación con el punto de control de gradiente estándar. Los análisis empíricos muestran que Video-Ma^2mba puede procesar extensas secuencias de video-equivalentes a millones de tokens o más de dos horas de secuencias continuas a 1 FPS-en una sola GPU. Al mantener una captura detallada de la dinámica temporal, nuestro modelo mejora la precisión y relevancia de las respuestas en tareas de comprensión de video largo, demostrando ventajas sustanciales sobre los marcos existentes.
English
With the growing scale and complexity of video data, efficiently processing long video sequences poses significant challenges due to the quadratic increase in memory and computational demands associated with existing transformer-based Large Multi-modal Models (LMMs). To address these issues, we introduce Video-Ma^2mba, a novel architecture that incorporates State Space Models (SSMs) within the Mamba-2 framework, replacing the attention mechanisms. This allows the LMMs to scale linearly in terms of time and memory requirements, making it feasible to handle long-duration video content. Furthermore, we enhance the memory efficiency introducing the Multi-Axis Gradient Checkpointing (MA-GC) method, which strategically manages memory by retaining only essential activations across multiple computational axes. Our approach significantly reduces the memory footprint compared to standard gradient checkpointing. Empirical analyses show that Video-Ma^2mba can process extensive video sequences-equivalent to millions of tokens or over two hours of continuous sequences at 1 FPS-on a single GPU. By maintaining a detailed capture of temporal dynamics, our model improves the accuracy and relevance of responses in long video understanding tasks, demonstrating substantial advantages over existing frameworks.

Summary

AI-Generated Summary

PDF112December 2, 2024