ChatPaper.aiChatPaper

Apollo : Une exploration de la compréhension vidéo dans de grands modèles multimodaux

Apollo: An Exploration of Video Understanding in Large Multimodal Models

December 13, 2024
Auteurs: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
cs.AI

Résumé

Malgré l'intégration rapide des capacités de perception vidéo dans les Grands Modèles Multimodaux (LMM), les mécanismes sous-jacents qui guident leur compréhension vidéo restent mal compris. Par conséquent, de nombreuses décisions de conception dans ce domaine sont prises sans justification ou analyse appropriée. Le coût computationnel élevé de la formation et de l'évaluation de tels modèles, associé à une recherche ouverte limitée, entrave le développement des modèles vidéo-LMM. Pour remédier à cela, nous présentons une étude approfondie qui aide à découvrir ce qui conduit efficacement la compréhension vidéo dans les LMM. Nous commençons par examiner de manière critique les principaux contributeurs aux exigences computationnelles élevées associées à la recherche sur les vidéo-LMM et découvrons la Cohérence de l'Échelle, où les décisions de conception et de formation prises sur des modèles et des ensembles de données plus petits (jusqu'à une taille critique) se transfèrent efficacement aux modèles plus grands. En tirant parti de ces connaissances, nous avons exploré de nombreux aspects spécifiques des vidéos dans les vidéo-LMM, notamment l'échantillonnage vidéo, les architectures, la composition des données, les calendriers de formation, et plus encore. Par exemple, nous avons démontré que l'échantillonnage fps pendant la formation est nettement préférable à l'échantillonnage uniforme des images et quels encodeurs de vision sont les meilleurs pour la représentation vidéo. Guidés par ces découvertes, nous présentons Apollo, une famille de LMM de pointe qui atteignent des performances supérieures sur différentes tailles de modèles. Nos modèles peuvent percevoir efficacement des vidéos d'une heure, avec Apollo-3B surpassant la plupart des modèles existants de 7B avec un impressionnant 55,1 sur LongVideoBench. Apollo-7B est à la pointe par rapport aux LMM de 7B avec un score de 70,9 sur MLVU, et 63,3 sur Video-MME.
English
Despite the rapid integration of video perception capabilities into Large Multimodal Models (LMMs), the underlying mechanisms driving their video understanding remain poorly understood. Consequently, many design decisions in this domain are made without proper justification or analysis. The high computational cost of training and evaluating such models, coupled with limited open research, hinders the development of video-LMMs. To address this, we present a comprehensive study that helps uncover what effectively drives video understanding in LMMs. We begin by critically examining the primary contributors to the high computational requirements associated with video-LMM research and discover Scaling Consistency, wherein design and training decisions made on smaller models and datasets (up to a critical size) effectively transfer to larger models. Leveraging these insights, we explored many video-specific aspects of video-LMMs, including video sampling, architectures, data composition, training schedules, and more. For example, we demonstrated that fps sampling during training is vastly preferable to uniform frame sampling and which vision encoders are the best for video representation. Guided by these findings, we introduce Apollo, a state-of-the-art family of LMMs that achieve superior performance across different model sizes. Our models can perceive hour-long videos efficiently, with Apollo-3B outperforming most existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on Video-MME.
PDF14613December 16, 2024