ChatPaper.aiChatPaper

InternVL3.5: 다목적성, 추론 능력, 효율성 측면에서 오픈소스 멀티모달 모델의 발전

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

August 25, 2025
저자: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo
cs.AI

초록

우리는 다목적성, 추론 능력, 그리고 추론 효율성 측면에서 InternVL 시리즈를 크게 발전시킨 새로운 오픈소스 멀티모달 모델 패밀리인 InternVL 3.5를 소개합니다. 주요 혁신은 Cascade Reinforcement Learning(Cascade RL) 프레임워크로, 이는 두 단계 프로세스를 통해 추론 능력을 향상시킵니다: 안정적인 수렴을 위한 오프라인 RL과 세밀한 정렬을 위한 온라인 RL. 이러한 coarse-to-fine 훈련 전략은 MMMU 및 MathVista와 같은 하위 추론 작업에서 상당한 개선을 이끌어냅니다. 효율성을 최적화하기 위해, 우리는 성능 저하 없이 시각적 토큰의 해상도를 동적으로 조정하는 Visual Resolution Router(ViR)를 제안합니다. ViR과 함께, 우리의 Decoupled Vision-Language Deployment(DvD) 전략은 비전 인코더와 언어 모델을 서로 다른 GPU에 분리하여 계산 부하를 효과적으로 균형잡습니다. 이러한 기여들은 종합적으로 InternVL3.5가 이전 버전인 InternVL3에 비해 전체 추론 성능에서 최대 +16.0%의 향상과 4.05배의 추론 속도 향상을 달성할 수 있게 합니다. 또한, InternVL3.5는 GUI 상호작용 및 embodied agency와 같은 새로운 기능을 지원합니다. 특히, 우리의 가장 큰 모델인 InternVL3.5-241B-A28B는 일반 멀티모달, 추론, 텍스트, 그리고 에이전트 작업 전반에 걸쳐 오픈소스 MLLM 중 최첨단 결과를 달성하며 GPT-5와 같은 선도적인 상용 모델과의 성능 격차를 좁혔습니다. 모든 모델과 코드는 공개되었습니다.
English
We introduce InternVL 3.5, a new family of open-source multimodal models that significantly advances versatility, reasoning capability, and inference efficiency along the InternVL series. A key innovation is the Cascade Reinforcement Learning (Cascade RL) framework, which enhances reasoning through a two-stage process: offline RL for stable convergence and online RL for refined alignment. This coarse-to-fine training strategy leads to substantial improvements on downstream reasoning tasks, e.g., MMMU and MathVista. To optimize efficiency, we propose a Visual Resolution Router (ViR) that dynamically adjusts the resolution of visual tokens without compromising performance. Coupled with ViR, our Decoupled Vision-Language Deployment (DvD) strategy separates the vision encoder and language model across different GPUs, effectively balancing computational load. These contributions collectively enable InternVL3.5 to achieve up to a +16.0\% gain in overall reasoning performance and a 4.05times inference speedup compared to its predecessor, i.e., InternVL3. In addition, InternVL3.5 supports novel capabilities such as GUI interaction and embodied agency. Notably, our largest model, i.e., InternVL3.5-241B-A28B, attains state-of-the-art results among open-source MLLMs across general multimodal, reasoning, text, and agentic tasks -- narrowing the performance gap with leading commercial models like GPT-5. All models and code are publicly released.
PDF1123August 26, 2025