Apollo : Une exploration de la compréhension vidéo dans de grands modèles multimodauxApollo: An Exploration of Video Understanding in Large Multimodal Models
Malgré l'intégration rapide des capacités de perception vidéo dans les Grands Modèles Multimodaux (LMM), les mécanismes sous-jacents qui guident leur compréhension vidéo restent mal compris. Par conséquent, de nombreuses décisions de conception dans ce domaine sont prises sans justification ou analyse appropriée. Le coût computationnel élevé de la formation et de l'évaluation de tels modèles, associé à une recherche ouverte limitée, entrave le développement des modèles vidéo-LMM. Pour remédier à cela, nous présentons une étude approfondie qui aide à découvrir ce qui conduit efficacement la compréhension vidéo dans les LMM. Nous commençons par examiner de manière critique les principaux contributeurs aux exigences computationnelles élevées associées à la recherche sur les vidéo-LMM et découvrons la Cohérence de l'Échelle, où les décisions de conception et de formation prises sur des modèles et des ensembles de données plus petits (jusqu'à une taille critique) se transfèrent efficacement aux modèles plus grands. En tirant parti de ces connaissances, nous avons exploré de nombreux aspects spécifiques des vidéos dans les vidéo-LMM, notamment l'échantillonnage vidéo, les architectures, la composition des données, les calendriers de formation, et plus encore. Par exemple, nous avons démontré que l'échantillonnage fps pendant la formation est nettement préférable à l'échantillonnage uniforme des images et quels encodeurs de vision sont les meilleurs pour la représentation vidéo. Guidés par ces découvertes, nous présentons Apollo, une famille de LMM de pointe qui atteignent des performances supérieures sur différentes tailles de modèles. Nos modèles peuvent percevoir efficacement des vidéos d'une heure, avec Apollo-3B surpassant la plupart des modèles existants de 7B avec un impressionnant 55,1 sur LongVideoBench. Apollo-7B est à la pointe par rapport aux LMM de 7B avec un score de 70,9 sur MLVU, et 63,3 sur Video-MME.