Apollo: Un'esplorazione della comprensione dei video nei grandi modelli multimodaliApollo: An Exploration of Video Understanding in Large Multimodal Models
Nonostante l'integrazione rapida delle capacità di percezione video nei Grandi Modelli Multimodali (LMM), i meccanismi sottostanti che guidano la comprensione dei video rimangono scarsamente compresi. Di conseguenza, molte decisioni progettuali in questo ambito vengono prese senza una giustificazione o analisi adeguata. L'alto costo computazionale per addestrare ed valutare tali modelli, unito alla limitata ricerca aperta, ostacola lo sviluppo dei video-LMM. Per affrontare ciò, presentiamo uno studio esaustivo che aiuta a scoprire cosa guida efficacemente la comprensione dei video nei LMM. Iniziamo esaminando criticamente i principali contributi alle elevate esigenze computazionali associate alla ricerca sui video-LMM e scopriamo la Coerenza della Scalabilità, in cui le decisioni progettuali e di addestramento prese su modelli e dataset più piccoli (fino a una dimensione critica) si trasferiscono efficacemente a modelli più grandi. Sfruttando queste intuizioni, abbiamo esplorato molti aspetti specifici dei video-LMM, tra cui campionamento video, architetture, composizione dei dati, programmi di addestramento e altro ancora. Ad esempio, abbiamo dimostrato che il campionamento fps durante l'addestramento è nettamente preferibile al campionamento uniforme dei frame e quali codificatori di visione sono i migliori per la rappresentazione video. Guidati da queste scoperte, presentiamo Apollo, una famiglia di LMM all'avanguardia che raggiunge prestazioni superiori su diverse dimensioni di modelli. I nostri modelli possono percepire video di un'ora in modo efficiente, con Apollo-3B che supera la maggior parte dei modelli esistenti da 7B con un impressionante 55,1 su LongVideoBench. Apollo-7B è all'avanguardia rispetto ai LMM da 7B con un 70,9 su MLVU e un 63,3 su Video-MME.