ChatPaper.aiChatPaper

Apollo: Een verkenning van videobegrip in grote multimodale modellen

Apollo: An Exploration of Video Understanding in Large Multimodal Models

December 13, 2024
Auteurs: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
cs.AI

Samenvatting

Ondanks de snelle integratie van videoperceptiemogelijkheden in Grote Multimodale Modellen (LMM's) blijven de onderliggende mechanismen die hun videobegrip aansturen slecht begrepen. Hierdoor worden veel ontwerpbeslissingen op dit gebied genomen zonder de juiste rechtvaardiging of analyse. De hoge rekenkundige kosten van het trainen en evalueren van dergelijke modellen, samen met beperkt open onderzoek, belemmeren de ontwikkeling van video-LMM's. Om dit aan te pakken, presenteren we een uitgebreide studie die helpt blootleggen wat effectief videobegrip in LMM's aanstuurt. We beginnen met een kritische analyse van de belangrijkste bijdragers aan de hoge rekenvereisten die gepaard gaan met onderzoek naar video-LMM's en ontdekken Schaalconsistentie, waarbij ontwerp- en trainingsbeslissingen die worden genomen op kleinere modellen en datasets (tot een kritieke omvang) effectief overgaan naar grotere modellen. Met behulp van deze inzichten hebben we veel video-specifieke aspecten van video-LMM's verkend, waaronder videosampling, architecturen, gegevenssamenstelling, trainingschema's en meer. Zo hebben we bijvoorbeeld aangetoond dat fps-sampling tijdens training aanzienlijk de voorkeur verdient boven uniforme framesampling en welke visie-encoders het beste zijn voor videoweergave. Geleid door deze bevindingen introduceren we Apollo, een state-of-the-art familie van LMM's die superieure prestaties behalen over verschillende modelgroottes. Onze modellen kunnen efficiënt uur lange video's waarnemen, waarbij Apollo-3B de meeste bestaande 7B-modellen overtreft met een indrukwekkende 55.1 op LongVideoBench. Apollo-7B is state-of-the-art in vergelijking met 7B LMM's met een score van 70.9 op MLVU en 63.3 op Video-MME.
English
Despite the rapid integration of video perception capabilities into Large Multimodal Models (LMMs), the underlying mechanisms driving their video understanding remain poorly understood. Consequently, many design decisions in this domain are made without proper justification or analysis. The high computational cost of training and evaluating such models, coupled with limited open research, hinders the development of video-LMMs. To address this, we present a comprehensive study that helps uncover what effectively drives video understanding in LMMs. We begin by critically examining the primary contributors to the high computational requirements associated with video-LMM research and discover Scaling Consistency, wherein design and training decisions made on smaller models and datasets (up to a critical size) effectively transfer to larger models. Leveraging these insights, we explored many video-specific aspects of video-LMMs, including video sampling, architectures, data composition, training schedules, and more. For example, we demonstrated that fps sampling during training is vastly preferable to uniform frame sampling and which vision encoders are the best for video representation. Guided by these findings, we introduce Apollo, a state-of-the-art family of LMMs that achieve superior performance across different model sizes. Our models can perceive hour-long videos efficiently, with Apollo-3B outperforming most existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on Video-MME.
PDF14713December 16, 2024