InternVL3.5 : Faire progresser les modèles multimodaux open-source en termes de polyvalence, de raisonnement et d'efficacité
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
August 25, 2025
papers.authors: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo
cs.AI
papers.abstract
Nous présentons InternVL 3.5, une nouvelle famille de modèles multimodaux open-source qui marque une avancée significative en termes de polyvalence, de capacité de raisonnement et d'efficacité d'inférence dans la série InternVL. Une innovation clé est le cadre de Cascade Reinforcement Learning (Cascade RL), qui améliore le raisonnement grâce à un processus en deux étapes : le RL hors ligne pour une convergence stable et le RL en ligne pour un alignement affiné. Cette stratégie d'apprentissage du grossier au fin conduit à des améliorations substantielles sur les tâches de raisonnement en aval, telles que MMMU et MathVista. Pour optimiser l'efficacité, nous proposons un Visual Resolution Router (ViR) qui ajuste dynamiquement la résolution des tokens visuels sans compromettre les performances. Couplé avec ViR, notre stratégie de Déploiement Découplé Vision-Langage (DvD) sépare l'encodeur visuel et le modèle de langage sur différents GPU, équilibrant efficacement la charge de calcul. Ces contributions permettent collectivement à InternVL3.5 d'atteindre un gain de +16,0 % en performance globale de raisonnement et une accélération de l'inférence de 4,05 fois par rapport à son prédécesseur, InternVL3. De plus, InternVL3.5 prend en charge de nouvelles capacités telles que l'interaction avec les interfaces graphiques et l'agence incarnée. Notamment, notre plus grand modèle, InternVL3.5-241B-A28B, obtient des résultats de pointe parmi les MLLM open-source sur des tâches multimodales générales, de raisonnement, de texte et d'agence — réduisant l'écart de performance avec les modèles commerciaux leaders comme GPT-5. Tous les modèles et le code sont publiés publiquement.
English
We introduce InternVL 3.5, a new family of open-source multimodal models that
significantly advances versatility, reasoning capability, and inference
efficiency along the InternVL series. A key innovation is the Cascade
Reinforcement Learning (Cascade RL) framework, which enhances reasoning through
a two-stage process: offline RL for stable convergence and online RL for
refined alignment. This coarse-to-fine training strategy leads to substantial
improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To
optimize efficiency, we propose a Visual Resolution Router (ViR) that
dynamically adjusts the resolution of visual tokens without compromising
performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD)
strategy separates the vision encoder and language model across different GPUs,
effectively balancing computational load. These contributions collectively
enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning
performance and a 4.05times inference speedup compared to its predecessor,
i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as
GUI interaction and embodied agency. Notably, our largest model, i.e.,
InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs
across general multimodal, reasoning, text, and agentic tasks -- narrowing the
performance gap with leading commercial models like GPT-5. All models and code
are publicly released.