Аполлон: Исследование видеопонимания в больших мультимодальных моделяхApollo: An Exploration of Video Understanding in Large Multimodal Models
Несмотря на быструю интеграцию возможностей видеоперцепции в Большие Мультимодальные Модели (BMM), основные механизмы, определяющие их понимание видео, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без должного обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, затрудняет развитие видео-БММ. Для решения этой проблемы мы представляем комплексное исследование, которое помогает выявить, что эффективно определяет понимание видео в БММ. Мы начинаем с критического рассмотрения основных факторов, влияющих на высокие вычислительные требования, связанные с исследованиями видео-БММ, и обнаруживаем Согласованность Масштабирования, при которой проектные и обучающие решения, принятые на более маленьких моделях и наборах данных (до критического размера), эффективно переносятся на более крупные модели. Используя эти умозаключения, мы исследовали многие видеоспецифические аспекты видео-БММ, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы продемонстрировали, что выборка кадров во время обучения с частотой кадров в секунду (fps) является значительно предпочтительнее равномерной выборки кадров и какие видеоэнкодеры лучше всего подходят для представления видео. Ориентируясь на эти результаты, мы представляем Apollo, современное семейство БММ, которые достигают превосходной производительности на различных размерах моделей. Наши модели могут эффективно воспринимать видео длительностью в час, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющим показателем 55.1 на LongVideoBench. Apollo-7B является современным по сравнению с моделями 7B БММ с 70.9 на MLVU и 63.3 на Video-MME.