Apollo: Una exploración de la comprensión de video en grandes modelos multimodales.Apollo: An Exploration of Video Understanding in Large Multimodal Models
A pesar de la rápida integración de capacidades de percepción de video en Modelos Multimodales Grandes (LMMs), los mecanismos subyacentes que impulsan su comprensión de video siguen siendo poco comprendidos. En consecuencia, muchas decisiones de diseño en este ámbito se toman sin una justificación o análisis adecuados. El alto costo computacional de entrenar y evaluar dichos modelos, junto con una investigación abierta limitada, obstaculiza el desarrollo de video-LMMs. Para abordar esto, presentamos un estudio exhaustivo que ayuda a descubrir qué impulsa efectivamente la comprensión de video en LMMs. Comenzamos examinando críticamente los principales contribuyentes a los altos requisitos computacionales asociados con la investigación de video-LMM y descubrimos la Consistencia de Escalado, donde las decisiones de diseño y entrenamiento tomadas en modelos y conjuntos de datos más pequeños (hasta un tamaño crítico) se transfieren efectivamente a modelos más grandes. Aprovechando estas ideas, exploramos muchos aspectos específicos del video en los video-LMMs, incluyendo el muestreo de video, arquitecturas, composición de datos, programación de entrenamiento y más. Por ejemplo, demostramos que el muestreo de fps durante el entrenamiento es ampliamente preferible al muestreo uniforme de fotogramas y cuáles codificadores de visión son los mejores para la representación de video. Guiados por estos hallazgos, presentamos Apollo, una familia de LMMs de última generación que logran un rendimiento superior en diferentes tamaños de modelo. Nuestros modelos pueden percibir videos de una hora de manera eficiente, con Apollo-3B superando a la mayoría de los modelos existentes de 7B con un impresionante 55.1 en LongVideoBench. Apollo-7B es de última generación en comparación con los LMMs de 7B con un 70.9 en MLVU y 63.3 en Video-MME.