InternVL3.5: Развитие открытых мультимодальных моделей в направлении универсальности, логического мышления и эффективности
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
August 25, 2025
Авторы: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo
cs.AI
Аннотация
Мы представляем InternVL 3.5 — новое семейство открытых мультимодальных моделей, которое значительно улучшает универсальность, способность к рассуждениям и эффективность вывода в рамках серии InternVL. Ключевым нововведением является фреймворк Cascade Reinforcement Learning (Cascade RL), который улучшает способность к рассуждениям за счет двухэтапного процесса: оффлайн-обучение с подкреплением для стабильной сходимости и онлайн-обучение с подкреплением для точной настройки. Эта стратегия обучения от грубого к детальному приводит к значительному улучшению результатов на задачах, требующих рассуждений, таких как MMMU и MathVista. Для оптимизации эффективности мы предлагаем Visual Resolution Router (ViR), который динамически регулирует разрешение визуальных токенов без ущерба для производительности. В сочетании с ViR наша стратегия Decoupled Vision-Language Deployment (DvD) разделяет визуальный кодировщик и языковую модель на разных GPU, эффективно балансируя вычислительную нагрузку. Эти вклады в совокупности позволяют InternVL 3.5 достичь улучшения общей производительности в задачах рассуждений на +16,0% и ускорения вывода в 4,05 раза по сравнению с предшественником, т.е. InternVL 3. Кроме того, InternVL 3.5 поддерживает новые возможности, такие как взаимодействие с графическим интерфейсом и агентные функции. Примечательно, что наша крупнейшая модель, т.е. InternVL 3.5-241B-A28B, достигает передовых результатов среди открытых мультимодальных языковых моделей (MLLM) в общих мультимодальных задачах, задачах рассуждений, текстовых и агентных задачах, сокращая разрыв в производительности с ведущими коммерческими моделями, такими как GPT-5. Все модели и код публично доступны.
English
We introduce InternVL 3.5, a new family of open-source multimodal models that
significantly advances versatility, reasoning capability, and inference
efficiency along the InternVL series. A key innovation is the Cascade
Reinforcement Learning (Cascade RL) framework, which enhances reasoning through
a two-stage process: offline RL for stable convergence and online RL for
refined alignment. This coarse-to-fine training strategy leads to substantial
improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To
optimize efficiency, we propose a Visual Resolution Router (ViR) that
dynamically adjusts the resolution of visual tokens without compromising
performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD)
strategy separates the vision encoder and language model across different GPUs,
effectively balancing computational load. These contributions collectively
enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning
performance and a 4.05times inference speedup compared to its predecessor,
i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as
GUI interaction and embodied agency. Notably, our largest model, i.e.,
InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs
across general multimodal, reasoning, text, and agentic tasks -- narrowing the
performance gap with leading commercial models like GPT-5. All models and code
are publicly released.