InternVL3.5: Progresso nei Modelli Multimodali Open-Source in Versatilità, Ragionamento ed Efficienza
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
August 25, 2025
Autori: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo
cs.AI
Abstract
Presentiamo InternVL 3.5, una nuova famiglia di modelli multimodali open-source che segna un significativo avanzamento in termini di versatilità, capacità di ragionamento ed efficienza inferenziale lungo la serie InternVL. Un'innovazione chiave è il framework Cascade Reinforcement Learning (Cascade RL), che migliora il ragionamento attraverso un processo a due fasi: RL offline per una convergenza stabile e RL online per un allineamento raffinato. Questa strategia di addestramento da grossolana a fine porta a sostanziali miglioramenti nei compiti di ragionamento downstream, ad esempio MMMU e MathVista. Per ottimizzare l'efficienza, proponiamo un Visual Resolution Router (ViR) che regola dinamicamente la risoluzione dei token visivi senza compromettere le prestazioni. Insieme al ViR, la nostra strategia Decoupled Vision-Language Deployment (DvD) separa l'encoder visivo e il modello linguistico su diverse GPU, bilanciando efficacemente il carico computazionale. Questi contributi consentono collettivamente a InternVL3.5 di ottenere un guadagno fino al +16,0% nelle prestazioni complessive di ragionamento e un'accelerazione inferenziale di 4,05 volte rispetto al suo predecessore, ovvero InternVL3. Inoltre, InternVL3.5 supporta nuove capacità come l'interazione GUI e l'agency embodied. In particolare, il nostro modello più grande, ovvero InternVL3.5-241B-A28B, raggiunge risultati all'avanguardia tra i MLLM open-source in compiti multimodali generali, di ragionamento, testuali e agentici, riducendo il divario prestazionale con i principali modelli commerciali come GPT-5. Tutti i modelli e il codice sono rilasciati pubblicamente.
English
We introduce InternVL 3.5, a new family of open-source multimodal models that
significantly advances versatility, reasoning capability, and inference
efficiency along the InternVL series. A key innovation is the Cascade
Reinforcement Learning (Cascade RL) framework, which enhances reasoning through
a two-stage process: offline RL for stable convergence and online RL for
refined alignment. This coarse-to-fine training strategy leads to substantial
improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To
optimize efficiency, we propose a Visual Resolution Router (ViR) that
dynamically adjusts the resolution of visual tokens without compromising
performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD)
strategy separates the vision encoder and language model across different GPUs,
effectively balancing computational load. These contributions collectively
enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning
performance and a 4.05times inference speedup compared to its predecessor,
i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as
GUI interaction and embodied agency. Notably, our largest model, i.e.,
InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs
across general multimodal, reasoning, text, and agentic tasks -- narrowing the
performance gap with leading commercial models like GPT-5. All models and code
are publicly released.