InternVL3.5: Vooruitgang in Open-Source Multimodale Modellen op het gebied van Veelzijdigheid, Redeneren en Efficiëntie
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
August 25, 2025
Auteurs: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo
cs.AI
Samenvatting
We introduceren InternVL 3.5, een nieuwe familie van open-source multimodale modellen die een aanzienlijke vooruitgang boeken op het gebied van veelzijdigheid, redeneervermogen en inferentie-efficiëntie binnen de InternVL-serie. Een belangrijke innovatie is het Cascade Reinforcement Learning (Cascade RL) framework, dat het redeneervermogen verbetert via een tweestapsproces: offline RL voor stabiele convergentie en online RL voor verfijnde afstemming. Deze coarse-to-fine trainingsstrategie leidt tot aanzienlijke verbeteringen op downstream redeneertaken, zoals MMMU en MathVista. Om de efficiëntie te optimaliseren, stellen we een Visual Resolution Router (ViR) voor die dynamisch de resolutie van visuele tokens aanpast zonder de prestaties te compromitteren. In combinatie met ViR scheidt onze Decoupled Vision-Language Deployment (DvD)-strategie de vision-encoder en het taalmodel over verschillende GPU's, waardoor de rekenlast effectief wordt verdeeld. Deze bijdragen zorgen er gezamenlijk voor dat InternVL3.5 een verbetering van tot wel +16,0% in het algehele redeneervermogen en een 4,05-voudige versnelling van de inferentie bereikt in vergelijking met zijn voorganger, InternVL3. Daarnaast ondersteunt InternVL3.5 nieuwe mogelijkheden zoals GUI-interactie en embodied agency. Opmerkelijk is dat ons grootste model, InternVL3.5-241B-A28B, state-of-the-art resultaten behaalt onder open-source MLLM's voor algemene multimodale, redeneer-, tekst- en agenttaken, waardoor de prestatiekloof met toonaangevende commerciële modellen zoals GPT-5 wordt verkleind. Alle modellen en code zijn openbaar vrijgegeven.
English
We introduce InternVL 3.5, a new family of open-source multimodal models that
significantly advances versatility, reasoning capability, and inference
efficiency along the InternVL series. A key innovation is the Cascade
Reinforcement Learning (Cascade RL) framework, which enhances reasoning through
a two-stage process: offline RL for stable convergence and online RL for
refined alignment. This coarse-to-fine training strategy leads to substantial
improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To
optimize efficiency, we propose a Visual Resolution Router (ViR) that
dynamically adjusts the resolution of visual tokens without compromising
performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD)
strategy separates the vision encoder and language model across different GPUs,
effectively balancing computational load. These contributions collectively
enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning
performance and a 4.05times inference speedup compared to its predecessor,
i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as
GUI interaction and embodied agency. Notably, our largest model, i.e.,
InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs
across general multimodal, reasoning, text, and agentic tasks -- narrowing the
performance gap with leading commercial models like GPT-5. All models and code
are publicly released.