Het uitbreiden van de prestatiegrenzen van open-source multimodale modellen met model-, data- en schaalvergroting op testtijd.Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
We introduceren InternVL 2.5, een geavanceerd multimodaal groot taalmodel (MLLM) serie die voortbouwt op InternVL 2.0, waarbij het kernmodelarchitectuur behouden blijft en significante verbeteringen introduceert in trainings- en teststrategieën, evenals gegevenskwaliteit. In dit werk duiken we in de relatie tussen model schaling en prestaties, systematisch de prestatietrends verkennend in visuele encoders, taalmodellen, datasetgroottes, en testtijdconfiguraties. Door uitgebreide evaluaties op een breed scala van benchmarks, inclusief multidisciplinair redeneren, documentbegrip, multi-beeld/video begrip, begrip van de echte wereld, multimodale hallucinatiedetectie, visuele verankering, meertalige mogelijkheden, en pure taalverwerking, vertoont InternVL 2.5 competitieve prestaties, wedijverend met toonaangevende commerciële modellen zoals GPT-4o en Claude-3.5-Sonnet. Opmerkelijk is dat ons model het eerste open-source MLLM is dat meer dan 70% behaalt op de MMMU benchmark, met een verbetering van 3,7 punten door Chain-of-Thought (CoT) redenering en een sterke potentie laat zien voor schaling op testtijd. We hopen dat dit model bijdraagt aan de open-source gemeenschap door nieuwe normen te stellen voor het ontwikkelen en toepassen van multimodale AI-systemen. HuggingFace demo zie https://huggingface.co/spaces/OpenGVLab/InternVL