InternVL3: Исследование передовых методов обучения и рецептов для тестирования в открытых мультимодальных моделяхInternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
Мы представляем InternVL3 — значительный шаг вперед в серии InternVL, который характеризуется нативной мультимодальной парадигмой предварительного обучения. В отличие от адаптации текстовой крупной языковой модели (LLM) в мультимодальную крупную языковую модель (MLLM), поддерживающую визуальные входные данные, InternVL3 одновременно приобретает мультимодальные и лингвистические способности на основе разнообразных мультимодальных данных и текстовых корпусов в рамках единого этапа предварительного обучения. Этот унифицированный подход эффективно решает сложности и проблемы согласования, часто возникающие в традиционных пост-обучающих конвейерах для MLLM. Для дальнейшего повышения производительности и масштабируемости InternVL3 включает переменное визуальное позиционное кодирование (V2PE) для поддержки расширенных мультимодальных контекстов, использует передовые методы пост-обучения, такие как контролируемая тонкая настройка (SFT) и смешанная оптимизация предпочтений (MPO), а также применяет стратегии масштабирования на этапе тестирования вместе с оптимизированной инфраструктурой обучения. Многочисленные эмпирические оценки демонстрируют, что InternVL3 обеспечивает превосходную производительность в широком спектре мультимодальных задач. В частности, InternVL3-78B достигает показателя 72.2 на бенчмарке MMMU, устанавливая новый рекорд среди открытых MLLM. Его возможности остаются высококонкурентоспособными по сравнению с ведущими проприетарными моделями, включая ChatGPT-4o, Claude 3.5 Sonnet и Gemini 2.5 Pro, при этом сохраняя сильные навыки в чисто языковых задачах. В соответствии с принципами открытой науки, мы опубликуем как данные для обучения, так и веса модели, чтобы способствовать дальнейшим исследованиям и разработкам в области MLLM следующего поколения.