ChatPaper.aiChatPaper

InternVL3.5: Avançando Modelos Multimodais de Código Aberto em Versatilidade, Raciocínio e Eficiência

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

August 25, 2025
Autores: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo
cs.AI

Resumo

Apresentamos o InternVL 3.5, uma nova família de modelos multimodais de código aberto que avança significativamente em versatilidade, capacidade de raciocínio e eficiência de inferência ao longo da série InternVL. Uma inovação chave é o framework Cascade Reinforcement Learning (Cascade RL), que aprimora o raciocínio por meio de um processo em duas etapas: RL offline para convergência estável e RL online para alinhamento refinado. Essa estratégia de treinamento de grosso a fino resulta em melhorias substanciais em tarefas de raciocínio subsequentes, como MMMU e MathVista. Para otimizar a eficiência, propomos um Visual Resolution Router (ViR) que ajusta dinamicamente a resolução dos tokens visuais sem comprometer o desempenho. Aliado ao ViR, nossa estratégia Decoupled Vision-Language Deployment (DvD) separa o codificador visual e o modelo de linguagem em diferentes GPUs, equilibrando efetivamente a carga computacional. Essas contribuições permitem coletivamente que o InternVL3.5 alcance um ganho de até +16,0% no desempenho geral de raciocínio e uma aceleração de 4,05 vezes na inferência em comparação com seu predecessor, o InternVL3. Além disso, o InternVL3.5 suporta novas capacidades, como interação com GUI e agência incorporada. Notavelmente, nosso maior modelo, o InternVL3.5-241B-A28B, atinge resultados de ponta entre os MLLMs de código aberto em tarefas multimodais gerais, de raciocínio, texto e agentes — reduzindo a lacuna de desempenho com modelos comerciais líderes como o GPT-5. Todos os modelos e códigos são liberados publicamente.
English
We introduce InternVL 3.5, a new family of open-source multimodal models that significantly advances versatility, reasoning capability, and inference efficiency along the InternVL series. A key innovation is the Cascade Reinforcement Learning (Cascade RL) framework, which enhances reasoning through a two-stage process: offline RL for stable convergence and online RL for refined alignment. This coarse-to-fine training strategy leads to substantial improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To optimize efficiency, we propose a Visual Resolution Router (ViR) that dynamically adjusts the resolution of visual tokens without compromising performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD) strategy separates the vision encoder and language model across different GPUs, effectively balancing computational load. These contributions collectively enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning performance and a 4.05times inference speedup compared to its predecessor, i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as GUI interaction and embodied agency. Notably, our largest model, i.e., InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs across general multimodal, reasoning, text, and agentic tasks -- narrowing the performance gap with leading commercial models like GPT-5. All models and code are publicly released.
PDF1857August 26, 2025