LongVILA: Масштабирование моделей длинного контекста визуального языка для длинных видеороликовLongVILA: Scaling Long-Context Visual Language Models for Long Videos
Для много-модальных базовых моделей критически важна способность к работе с длинным контекстом. Мы представляем LongVILA - комплексное решение для моделей видео-языкового восприятия с длинным контекстом, включающее систему, обучение модели и разработку набора данных. На уровне системы мы представляем первую систему многомодальной последовательной параллелизации (MM-SP), позволяющую обучение и вывод с длинным контекстом, обеспечивая обучение с длиной контекста 2M на 256 графических процессорах. MM-SP также эффективен, работая со скоростью 2,1-5,7 раз быстрее, чем последовательная параллелизация в стиле кольца, и 1,1-1,4 раза быстрее, чем Megatron-LM в настройках только текста. Более того, он легко интегрируется с Hugging Face Transformers. Для обучения модели мы предлагаем пятиэтапный конвейер, включающий выравнивание, предварительное обучение, расширение контекста и совместное обучение с длинным и коротким контекстом. Что касается наборов данных, мы тщательно создаем масштабные наборы данных для предварительного обучения визуально-языковых моделей и длинных наборов данных для следования инструкциям в видео, чтобы поддержать наш многоэтапный процесс обучения. Комплексное решение увеличивает возможное количество кадров VILA в 128 раз (с 8 до 1024 кадров) и повышает оценку длинного видеоописания с 2,00 до 3,26 (1,6 раза), достигая точности 99,5% в видео на 1400 кадров (длина контекста 274 тыс. символов) "иголка в стоге сена". LongVILA-8B также демонстрирует последовательное улучшение производительности на длинных видео в рамках бенчмарка VideoMME по мере увеличения количества кадров видео.