Расширение границ производительности мульти-модельных моделей с открытым исходным кодом с помощью масштабирования модели, данных и времени тестирования.Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
Мы представляем InternVL 2.5 - передовую серию мультимодальных крупных языковых моделей (MLLM), основанную на InternVL 2.0, сохраняющую ее основную архитектуру модели и внедряющую значительные улучшения в стратегии обучения и тестирования, а также в качестве данных. В данной работе мы глубоко исследуем взаимосвязь между масштабированием модели и производительностью, систематически изучая тенденции производительности в области визуальных кодировщиков, языковых моделей, размеров наборов данных и конфигураций времени тестирования. Проведя обширные оценки на широком спектре бенчмарков, включая междисциплинарное рассуждение, понимание документов, мультиизображения/видеопонимание, понимание реального мира, обнаружение мультимодальных галлюцинаций, визуальное привязывание, мультиязычные возможности и чистую обработку языка, InternVL 2.5 демонстрирует конкурентоспособную производительность, не уступая ведущим коммерческим моделям, таким как GPT-4o и Claude-3.5-Sonnet. Значительно, наша модель является первой открытой мультимодальной MLLM, превосходящей 70% на бенчмарке MMMU, достигая улучшения на 3,7 пункта благодаря рассуждениям Chain-of-Thought (CoT) и демонстрируя сильный потенциал для масштабирования во время тестирования. Мы надеемся, что эта модель внесет вклад в сообщество с открытым исходным кодом, устанавливая новые стандарты для разработки и применения мультимодальных систем искусственного интеллекта. Демонстрация HuggingFace см. по ссылке https://huggingface.co/spaces/OpenGVLab/InternVL