InternVL3.5: Avanzando en Modelos Multimodales de Código Abierto en Versatilidad, Razonamiento y Eficiencia
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
August 25, 2025
Autores: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo
cs.AI
Resumen
Presentamos InternVL 3.5, una nueva familia de modelos multimodales de código abierto que avanza significativamente en versatilidad, capacidad de razonamiento y eficiencia de inferencia dentro de la serie InternVL. Una innovación clave es el marco de Aprendizaje por Refuerzo en Cascada (Cascade RL), que mejora el razonamiento mediante un proceso de dos etapas: RL fuera de línea para una convergencia estable y RL en línea para un alineamiento refinado. Esta estrategia de entrenamiento de lo general a lo específico conduce a mejoras sustanciales en tareas de razonamiento posteriores, como MMMU y MathVista. Para optimizar la eficiencia, proponemos un Enrutador de Resolución Visual (ViR) que ajusta dinámicamente la resolución de los tokens visuales sin comprometer el rendimiento. Junto con ViR, nuestra estrategia de Despliegue Desacoplado Visión-Lenguaje (DvD) separa el codificador visual y el modelo de lenguaje en diferentes GPUs, equilibrando eficazmente la carga computacional. Estas contribuciones permiten colectivamente que InternVL3.5 logre una mejora de hasta +16.0% en el rendimiento general de razonamiento y una aceleración de 4.05 veces en la inferencia en comparación con su predecesor, es decir, InternVL3. Además, InternVL3.5 admite capacidades novedosas como la interacción con interfaces gráficas y la agencia encarnada. Cabe destacar que nuestro modelo más grande, es decir, InternVL3.5-241B-A28B, alcanza resultados de vanguardia entre los MLLMs de código abierto en tareas multimodales generales, de razonamiento, de texto y de agencia, reduciendo la brecha de rendimiento con modelos comerciales líderes como GPT-5. Todos los modelos y el código se han publicado públicamente.
English
We introduce InternVL 3.5, a new family of open-source multimodal models that
significantly advances versatility, reasoning capability, and inference
efficiency along the InternVL series. A key innovation is the Cascade
Reinforcement Learning (Cascade RL) framework, which enhances reasoning through
a two-stage process: offline RL for stable convergence and online RL for
refined alignment. This coarse-to-fine training strategy leads to substantial
improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To
optimize efficiency, we propose a Visual Resolution Router (ViR) that
dynamically adjusts the resolution of visual tokens without compromising
performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD)
strategy separates the vision encoder and language model across different GPUs,
effectively balancing computational load. These contributions collectively
enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning
performance and a 4.05times inference speedup compared to its predecessor,
i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as
GUI interaction and embodied agency. Notably, our largest model, i.e.,
InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs
across general multimodal, reasoning, text, and agentic tasks -- narrowing the
performance gap with leading commercial models like GPT-5. All models and code
are publicly released.