Аполлон: Исследование видеопонимания в больших мультимодальных моделях
Apollo: An Exploration of Video Understanding in Large Multimodal Models
December 13, 2024
Авторы: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
cs.AI
Аннотация
Несмотря на быструю интеграцию возможностей видеоперцепции в Большие Мультимодальные Модели (BMM), основные механизмы, определяющие их понимание видео, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без должного обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, затрудняет развитие видео-БММ. Для решения этой проблемы мы представляем комплексное исследование, которое помогает выявить, что эффективно определяет понимание видео в БММ.
Мы начинаем с критического рассмотрения основных факторов, влияющих на высокие вычислительные требования, связанные с исследованиями видео-БММ, и обнаруживаем Согласованность Масштабирования, при которой проектные и обучающие решения, принятые на более маленьких моделях и наборах данных (до критического размера), эффективно переносятся на более крупные модели. Используя эти умозаключения, мы исследовали многие видеоспецифические аспекты видео-БММ, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы продемонстрировали, что выборка кадров во время обучения с частотой кадров в секунду (fps) является значительно предпочтительнее равномерной выборки кадров и какие видеоэнкодеры лучше всего подходят для представления видео.
Ориентируясь на эти результаты, мы представляем Apollo, современное семейство БММ, которые достигают превосходной производительности на различных размерах моделей. Наши модели могут эффективно воспринимать видео длительностью в час, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющим показателем 55.1 на LongVideoBench. Apollo-7B является современным по сравнению с моделями 7B БММ с 70.9 на MLVU и 63.3 на Video-MME.
English
Despite the rapid integration of video perception capabilities into Large
Multimodal Models (LMMs), the underlying mechanisms driving their video
understanding remain poorly understood. Consequently, many design decisions in
this domain are made without proper justification or analysis. The high
computational cost of training and evaluating such models, coupled with limited
open research, hinders the development of video-LMMs. To address this, we
present a comprehensive study that helps uncover what effectively drives video
understanding in LMMs.
We begin by critically examining the primary contributors to the high
computational requirements associated with video-LMM research and discover
Scaling Consistency, wherein design and training decisions made on smaller
models and datasets (up to a critical size) effectively transfer to larger
models. Leveraging these insights, we explored many video-specific aspects of
video-LMMs, including video sampling, architectures, data composition, training
schedules, and more. For example, we demonstrated that fps sampling during
training is vastly preferable to uniform frame sampling and which vision
encoders are the best for video representation.
Guided by these findings, we introduce Apollo, a state-of-the-art family of
LMMs that achieve superior performance across different model sizes. Our models
can perceive hour-long videos efficiently, with Apollo-3B outperforming most
existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is
state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on
Video-MME.Summary
AI-Generated Summary