通过模型、数据和测试时间的扩展,拓展开源多模态模型的性能边界。Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
我们介绍了InternVL 2.5,这是一种先进的多模态大型语言模型(MLLM)系列,它在InternVL 2.0的基础模型架构上进行了改进,同时在训练和测试策略以及数据质量方面引入了显著的增强。在这项工作中,我们深入探讨了模型扩展和性能之间的关系,系统地探索了视觉编码器、语言模型、数据集大小和测试时间配置在性能趋势中的表现。通过在广泛的基准测试中进行全面评估,包括多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理等,InternVL 2.5展现出竞争力强劲的性能,与领先的商业模型如GPT-4o和Claude-3.5-Sonnet不相上下。值得注意的是,我们的模型是首个在MMMU基准测试中超过70%的开源MLLM,通过“思维链”(CoT)推理实现了3.7个百分点的改进,并展示了在测试时间扩展方面的强大潜力。我们希望这个模型通过为开源社区树立开发和应用多模态人工智能系统的新标准而做出贡献。HuggingFace演示请参见https://huggingface.co/spaces/OpenGVLab/InternVL