Apollo: Uma Exploração da Compreensão de Vídeo em Modelos Multimodais Grandes
Apollo: An Exploration of Video Understanding in Large Multimodal Models
December 13, 2024
Autores: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
cs.AI
Resumo
Apesar da rápida integração das capacidades de percepção de vídeo em Modelos Multimodais de Grande Escala (LMMs), os mecanismos subjacentes que impulsionam a compreensão de vídeo ainda são pouco compreendidos. Consequentemente, muitas decisões de design nesse domínio são tomadas sem justificativa ou análise adequada. O alto custo computacional de treinar e avaliar tais modelos, juntamente com a limitada pesquisa aberta, dificulta o desenvolvimento de LMMs de vídeo. Para lidar com isso, apresentamos um estudo abrangente que ajuda a descobrir o que impulsiona efetivamente a compreensão de vídeo em LMMs.
Começamos examinando criticamente os principais contribuintes para os altos requisitos computacionais associados à pesquisa de LMMs de vídeo e descobrimos a Consistência de Escalonamento, onde decisões de design e treinamento feitas em modelos e conjuntos de dados menores (até um tamanho crítico) transferem efetivamente para modelos maiores. Aproveitando essas percepções, exploramos muitos aspectos específicos de vídeo de LMMs de vídeo, incluindo amostragem de vídeo, arquiteturas, composição de dados, cronogramas de treinamento e mais. Por exemplo, demonstramos que a amostragem de fps durante o treinamento é muito preferível à amostragem uniforme de quadros e quais codificadores de visão são os melhores para representação de vídeo.
Guiados por essas descobertas, apresentamos Apollo, uma família de LMMs de última geração que alcançam desempenho superior em diferentes tamanhos de modelo. Nossos modelos podem perceber vídeos de uma hora de forma eficiente, com o Apollo-3B superando a maioria dos modelos existentes de 7B com impressionantes 55.1 no LongVideoBench. O Apollo-7B é de última geração em comparação com os LMMs de 7B, com 70.9 no MLVU e 63.3 no Video-MME.
English
Despite the rapid integration of video perception capabilities into Large
Multimodal Models (LMMs), the underlying mechanisms driving their video
understanding remain poorly understood. Consequently, many design decisions in
this domain are made without proper justification or analysis. The high
computational cost of training and evaluating such models, coupled with limited
open research, hinders the development of video-LMMs. To address this, we
present a comprehensive study that helps uncover what effectively drives video
understanding in LMMs.
We begin by critically examining the primary contributors to the high
computational requirements associated with video-LMM research and discover
Scaling Consistency, wherein design and training decisions made on smaller
models and datasets (up to a critical size) effectively transfer to larger
models. Leveraging these insights, we explored many video-specific aspects of
video-LMMs, including video sampling, architectures, data composition, training
schedules, and more. For example, we demonstrated that fps sampling during
training is vastly preferable to uniform frame sampling and which vision
encoders are the best for video representation.
Guided by these findings, we introduce Apollo, a state-of-the-art family of
LMMs that achieve superior performance across different model sizes. Our models
can perceive hour-long videos efficiently, with Apollo-3B outperforming most
existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is
state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on
Video-MME.Summary
AI-Generated Summary