InternVL3.5: Vooruitgang in Open-Source Multimodale Modellen op het gebied van Veelzijdigheid, Redeneren en Efficiëntie

Samenvatting

We introduceren InternVL 3.5, een nieuwe familie van open-source multimodale modellen die een aanzienlijke vooruitgang boeken op het gebied van veelzijdigheid, redeneervermogen en inferentie-efficiëntie binnen de InternVL-serie. Een belangrijke innovatie is het Cascade Reinforcement Learning (Cascade RL) framework, dat het redeneervermogen verbetert via een tweestapsproces: offline RL voor stabiele convergentie en online RL voor verfijnde afstemming. Deze coarse-to-fine trainingsstrategie leidt tot aanzienlijke verbeteringen op downstream redeneertaken, zoals MMMU en MathVista. Om de efficiëntie te optimaliseren, stellen we een Visual Resolution Router (ViR) voor die dynamisch de resolutie van visuele tokens aanpast zonder de prestaties te compromitteren. In combinatie met ViR scheidt onze Decoupled Vision-Language Deployment (DvD)-strategie de vision-encoder en het taalmodel over verschillende GPU's, waardoor de rekenlast effectief wordt verdeeld. Deze bijdragen zorgen er gezamenlijk voor dat InternVL3.5 een verbetering van tot wel +16,0% in het algehele redeneervermogen en een 4,05-voudige versnelling van de inferentie bereikt in vergelijking met zijn voorganger, InternVL3. Daarnaast ondersteunt InternVL3.5 nieuwe mogelijkheden zoals GUI-interactie en embodied agency. Opmerkelijk is dat ons grootste model, InternVL3.5-241B-A28B, state-of-the-art resultaten behaalt onder open-source MLLM's voor algemene multimodale, redeneer-, tekst- en agenttaken, waardoor de prestatiekloof met toonaangevende commerciële modellen zoals GPT-5 wordt verkleind. Alle modellen en code zijn openbaar vrijgegeven.

English

We introduce InternVL 3.5, a new family of open-source multimodal models that significantly advances versatility, reasoning capability, and inference efficiency along the InternVL series. A key innovation is the Cascade Reinforcement Learning (Cascade RL) framework, which enhances reasoning through a two-stage process: offline RL for stable convergence and online RL for refined alignment. This coarse-to-fine training strategy leads to substantial improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To optimize efficiency, we propose a Visual Resolution Router (ViR) that dynamically adjusts the resolution of visual tokens without compromising performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD) strategy separates the vision encoder and language model across different GPUs, effectively balancing computational load. These contributions collectively enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning performance and a 4.05times inference speedup compared to its predecessor, i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as GUI interaction and embodied agency. Notably, our largest model, i.e., InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs across general multimodal, reasoning, text, and agentic tasks -- narrowing the performance gap with leading commercial models like GPT-5. All models and code are publicly released.

InternVL3.5: Vooruitgang in Open-Source Multimodale Modellen op het gebied van Veelzijdigheid, Redeneren en Efficiëntie

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

Samenvatting

Support