透過模型、資料和測試時間的擴展,拓展開源多模型模型的性能邊界。Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
我們介紹了 InternVL 2.5,這是一個先進的多模式大型語言模型(MLLM)系列,建立在 InternVL 2.0 的基礎上,保留其核心模型架構,同時引入了在訓練和測試策略以及數據質量方面的重大增強。在這項工作中,我們深入探討模型擴展和性能之間的關係,系統地探索視覺編碼器、語言模型、數據集大小和測試時間配置的性能趨勢。通過對廣泛範圍的基準測試進行全面評估,包括多學科推理、文件理解、多圖像/視頻理解、現實世界理解、多模式幻覺檢測、視覺基礎、多語言能力和純語言處理,InternVL 2.5 展現出競爭力強勁的性能,與領先的商業模型如 GPT-4o 和 Claude-3.5-Sonnet 不相上下。值得注意的是,我們的模型是第一個開源 MLLMs,在 MMMU 基準測試中超過 70%,通過「思維鏈」(CoT)推理實現了 3.7 個百分點的改進,展示了在測試時間擴展方面的強大潛力。我們希望這個模型通過為開源社區設定開發和應用多模式人工智慧系統的新標準而做出貢獻。HuggingFace 演示請參見 https://huggingface.co/spaces/OpenGVLab/InternVL