Observa Cada Fotograma de una Vez: Video-Ma^2mba para una Comprensión Eficiente de Videos de Larga Duración con Puntos de Control de Gradiente Multi-eje
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing
November 29, 2024
Autores: Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro
cs.AI
Resumen
Con el creciente tamaño y complejidad de los datos de video, procesar eficientemente secuencias de video largas plantea desafíos significativos debido al aumento cuadrático en las demandas de memoria y computación asociadas con los Modelos Multimodales Grandes (LMMs) basados en transformadores existentes. Para abordar estos problemas, presentamos Video-Ma^2mba, una arquitectura novedosa que incorpora Modelos de Espacio de Estado (SSMs) dentro del marco de Mamba-2, reemplazando los mecanismos de atención. Esto permite que los LMMs escalen linealmente en términos de tiempo y requisitos de memoria, lo que hace factible manejar contenido de video de larga duración. Además, mejoramos la eficiencia de memoria introduciendo el método de Punto de Control de Gradiente Multi-Eje (MA-GC), que gestiona estratégicamente la memoria al retener solo activaciones esenciales en múltiples ejes computacionales. Nuestro enfoque reduce significativamente la huella de memoria en comparación con el punto de control de gradiente estándar. Los análisis empíricos muestran que Video-Ma^2mba puede procesar extensas secuencias de video-equivalentes a millones de tokens o más de dos horas de secuencias continuas a 1 FPS-en una sola GPU. Al mantener una captura detallada de la dinámica temporal, nuestro modelo mejora la precisión y relevancia de las respuestas en tareas de comprensión de video largo, demostrando ventajas sustanciales sobre los marcos existentes.
English
With the growing scale and complexity of video data, efficiently processing
long video sequences poses significant challenges due to the quadratic increase
in memory and computational demands associated with existing transformer-based
Large Multi-modal Models (LMMs). To address these issues, we introduce
Video-Ma^2mba, a novel architecture that incorporates State Space Models
(SSMs) within the Mamba-2 framework, replacing the attention mechanisms. This
allows the LMMs to scale linearly in terms of time and memory requirements,
making it feasible to handle long-duration video content. Furthermore, we
enhance the memory efficiency introducing the Multi-Axis Gradient Checkpointing
(MA-GC) method, which strategically manages memory by retaining only essential
activations across multiple computational axes. Our approach significantly
reduces the memory footprint compared to standard gradient checkpointing.
Empirical analyses show that Video-Ma^2mba can process extensive video
sequences-equivalent to millions of tokens or over two hours of continuous
sequences at 1 FPS-on a single GPU. By maintaining a detailed capture of
temporal dynamics, our model improves the accuracy and relevance of responses
in long video understanding tasks, demonstrating substantial advantages over
existing frameworks.Summary
AI-Generated Summary