Apollo: Una exploración de la comprensión de video en grandes modelos multimodales.

Resumen

A pesar de la rápida integración de capacidades de percepción de video en Modelos Multimodales Grandes (LMMs), los mecanismos subyacentes que impulsan su comprensión de video siguen siendo poco comprendidos. En consecuencia, muchas decisiones de diseño en este ámbito se toman sin una justificación o análisis adecuados. El alto costo computacional de entrenar y evaluar dichos modelos, junto con una investigación abierta limitada, obstaculiza el desarrollo de video-LMMs. Para abordar esto, presentamos un estudio exhaustivo que ayuda a descubrir qué impulsa efectivamente la comprensión de video en LMMs. Comenzamos examinando críticamente los principales contribuyentes a los altos requisitos computacionales asociados con la investigación de video-LMM y descubrimos la Consistencia de Escalado, donde las decisiones de diseño y entrenamiento tomadas en modelos y conjuntos de datos más pequeños (hasta un tamaño crítico) se transfieren efectivamente a modelos más grandes. Aprovechando estas ideas, exploramos muchos aspectos específicos del video en los video-LMMs, incluyendo el muestreo de video, arquitecturas, composición de datos, programación de entrenamiento y más. Por ejemplo, demostramos que el muestreo de fps durante el entrenamiento es ampliamente preferible al muestreo uniforme de fotogramas y cuáles codificadores de visión son los mejores para la representación de video. Guiados por estos hallazgos, presentamos Apollo, una familia de LMMs de última generación que logran un rendimiento superior en diferentes tamaños de modelo. Nuestros modelos pueden percibir videos de una hora de manera eficiente, con Apollo-3B superando a la mayoría de los modelos existentes de 7B con un impresionante 55.1 en LongVideoBench. Apollo-7B es de última generación en comparación con los LMMs de 7B con un 70.9 en MLVU y 63.3 en Video-MME.

English

Despite the rapid integration of video perception capabilities into Large Multimodal Models (LMMs), the underlying mechanisms driving their video understanding remain poorly understood. Consequently, many design decisions in this domain are made without proper justification or analysis. The high computational cost of training and evaluating such models, coupled with limited open research, hinders the development of video-LMMs. To address this, we present a comprehensive study that helps uncover what effectively drives video understanding in LMMs. We begin by critically examining the primary contributors to the high computational requirements associated with video-LMM research and discover Scaling Consistency, wherein design and training decisions made on smaller models and datasets (up to a critical size) effectively transfer to larger models. Leveraging these insights, we explored many video-specific aspects of video-LMMs, including video sampling, architectures, data composition, training schedules, and more. For example, we demonstrated that fps sampling during training is vastly preferable to uniform frame sampling and which vision encoders are the best for video representation. Guided by these findings, we introduce Apollo, a state-of-the-art family of LMMs that achieve superior performance across different model sizes. Our models can perceive hour-long videos efficiently, with Apollo-3B outperforming most existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on Video-MME.

Apollo: Una exploración de la comprensión de video en grandes modelos multimodales.

Apollo: An Exploration of Video Understanding in Large Multimodal Models

Resumen

Support