Apollo: Una exploración de la comprensión de video en grandes modelos multimodales.
Apollo: An Exploration of Video Understanding in Large Multimodal Models
December 13, 2024
Autores: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
cs.AI
Resumen
A pesar de la rápida integración de capacidades de percepción de video en Modelos Multimodales Grandes (LMMs), los mecanismos subyacentes que impulsan su comprensión de video siguen siendo poco comprendidos. En consecuencia, muchas decisiones de diseño en este ámbito se toman sin una justificación o análisis adecuados. El alto costo computacional de entrenar y evaluar dichos modelos, junto con una investigación abierta limitada, obstaculiza el desarrollo de video-LMMs. Para abordar esto, presentamos un estudio exhaustivo que ayuda a descubrir qué impulsa efectivamente la comprensión de video en LMMs.
Comenzamos examinando críticamente los principales contribuyentes a los altos requisitos computacionales asociados con la investigación de video-LMM y descubrimos la Consistencia de Escalado, donde las decisiones de diseño y entrenamiento tomadas en modelos y conjuntos de datos más pequeños (hasta un tamaño crítico) se transfieren efectivamente a modelos más grandes. Aprovechando estas ideas, exploramos muchos aspectos específicos del video en los video-LMMs, incluyendo el muestreo de video, arquitecturas, composición de datos, programación de entrenamiento y más. Por ejemplo, demostramos que el muestreo de fps durante el entrenamiento es ampliamente preferible al muestreo uniforme de fotogramas y cuáles codificadores de visión son los mejores para la representación de video.
Guiados por estos hallazgos, presentamos Apollo, una familia de LMMs de última generación que logran un rendimiento superior en diferentes tamaños de modelo. Nuestros modelos pueden percibir videos de una hora de manera eficiente, con Apollo-3B superando a la mayoría de los modelos existentes de 7B con un impresionante 55.1 en LongVideoBench. Apollo-7B es de última generación en comparación con los LMMs de 7B con un 70.9 en MLVU y 63.3 en Video-MME.
English
Despite the rapid integration of video perception capabilities into Large
Multimodal Models (LMMs), the underlying mechanisms driving their video
understanding remain poorly understood. Consequently, many design decisions in
this domain are made without proper justification or analysis. The high
computational cost of training and evaluating such models, coupled with limited
open research, hinders the development of video-LMMs. To address this, we
present a comprehensive study that helps uncover what effectively drives video
understanding in LMMs.
We begin by critically examining the primary contributors to the high
computational requirements associated with video-LMM research and discover
Scaling Consistency, wherein design and training decisions made on smaller
models and datasets (up to a critical size) effectively transfer to larger
models. Leveraging these insights, we explored many video-specific aspects of
video-LMMs, including video sampling, architectures, data composition, training
schedules, and more. For example, we demonstrated that fps sampling during
training is vastly preferable to uniform frame sampling and which vision
encoders are the best for video representation.
Guided by these findings, we introduce Apollo, a state-of-the-art family of
LMMs that achieve superior performance across different model sizes. Our models
can perceive hour-long videos efficiently, with Apollo-3B outperforming most
existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is
state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on
Video-MME.Summary
AI-Generated Summary