ChatPaper.aiChatPaper

InternVL3.5: Fortschritt in der Vielseitigkeit, dem logischen Denken und der Effizienz von Open-Source-Multimodalen Modellen

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

August 25, 2025
papers.authors: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo
cs.AI

papers.abstract

Wir stellen InternVL 3.5 vor, eine neue Familie von Open-Source-Multimodell-Modellen, die die Vielseitigkeit, die Fähigkeit zum logischen Schlussfolgern und die Effizienz der Inferenz entlang der InternVL-Serie erheblich vorantreibt. Eine zentrale Innovation ist das Cascade Reinforcement Learning (Cascade RL)-Framework, das die Schlussfolgerungsfähigkeit durch einen zweistufigen Prozess verbessert: Offline-RL für eine stabile Konvergenz und Online-RL für eine verfeinerte Ausrichtung. Diese grob-zu-fein Trainingsstrategie führt zu erheblichen Verbesserungen bei nachgelagerten Schlussfolgerungsaufgaben, z.B. MMMU und MathVista. Um die Effizienz zu optimieren, schlagen wir einen Visual Resolution Router (ViR) vor, der die Auflösung visueller Tokens dynamisch anpasst, ohne die Leistung zu beeinträchtigen. In Kombination mit ViR trennt unsere Decoupled Vision-Language Deployment (DvD)-Strategie den Vision-Encoder und das Sprachmodell auf verschiedenen GPUs, wodurch die Rechenlast effektiv ausbalanciert wird. Diese Beiträge ermöglichen es InternVL 3.5 insgesamt, eine Steigerung von bis zu +16,0 % in der allgemeinen Schlussfolgerungsleistung und eine 4,05-fache Beschleunigung der Inferenz im Vergleich zu seinem Vorgänger, d.h. InternVL 3, zu erreichen. Darüber hinaus unterstützt InternVL 3.5 neuartige Fähigkeiten wie GUI-Interaktion und verkörperte Agenten. Insbesondere erreicht unser größtes Modell, d.h. InternVL 3.5-241B-A28B, state-of-the-art Ergebnisse unter Open-Source-MLLMs in allgemeinen multimodalen, schlussfolgernden, textbasierten und agentenbasierten Aufgaben – und verringert damit die Leistungslücke zu führenden kommerziellen Modellen wie GPT-5. Alle Modelle und der Code werden öffentlich zugänglich gemacht.
English
We introduce InternVL 3.5, a new family of open-source multimodal models that significantly advances versatility, reasoning capability, and inference efficiency along the InternVL series. A key innovation is the Cascade Reinforcement Learning (Cascade RL) framework, which enhances reasoning through a two-stage process: offline RL for stable convergence and online RL for refined alignment. This coarse-to-fine training strategy leads to substantial improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To optimize efficiency, we propose a Visual Resolution Router (ViR) that dynamically adjusts the resolution of visual tokens without compromising performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD) strategy separates the vision encoder and language model across different GPUs, effectively balancing computational load. These contributions collectively enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning performance and a 4.05times inference speedup compared to its predecessor, i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as GUI interaction and embodied agency. Notably, our largest model, i.e., InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs across general multimodal, reasoning, text, and agentic tasks -- narrowing the performance gap with leading commercial models like GPT-5. All models and code are publicly released.
PDF1123August 26, 2025