ChatPaper.aiChatPaper

GLM-4.1V-Thinking: 확장 가능한 강화 학습을 통한 다목적 다중모드 추론 방향

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

July 1, 2025
저자: Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Leyi Pan, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianle Gong, Wenkai Li, Wei Jia, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Xue, Yanfeng Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuxuan Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI

초록

본 논문에서는 일반적인 목적의 다중모드 추론을 발전시키기 위해 설계된 시각-언어 모델(VLM)인 GLM-4.1V-Thinking을 소개한다. 이 보고서에서는 추론 중심의 훈련 프레임워크 개발 과정에서 얻은 주요 발견을 공유한다. 먼저, 대규모 사전 훈련을 통해 최종 성능의 상한선을 설정할 수 있는 잠재력을 가진 강력한 시각 기반 모델을 개발하였다. 이후, 커리큘럼 샘플링을 통한 강화 학습(RLCS)을 통해 모델의 잠재력을 최대한 발휘하여 STEM 문제 해결, 비디오 이해, 콘텐츠 인식, 코딩, 그라운딩, GUI 기반 에이전트, 장문서 이해 등 다양한 작업에서 포괄적인 능력 향상을 이끌어냈다. 이 분야의 연구를 촉진하기 위해, 동일 규모의 모델 중 최고 수준의 성능을 달성한 GLM-4.1V-9B-Thinking을 오픈소스로 공개한다. 28개의 공개 벤치마크에 대한 포괄적인 평가에서, 본 모델은 거의 모든 작업에서 Qwen2.5-VL-7B를 능가하며, 훨씬 더 큰 규모의 Qwen2.5-VL-72B와 비교하여 18개의 벤치마크에서 비슷하거나 더 우수한 성능을 보였다. 특히, GLM-4.1V-9B-Thinking은 장문서 이해 및 STEM 추론과 같은 도전적인 작업에서 GPT-4o와 같은 폐쇄형 모델과 비교하여 경쟁력 있거나 더 우수한 성능을 보여, 그 강력한 능력을 더욱 입증하였다. 코드, 모델 및 추가 정보는 https://github.com/THUDM/GLM-4.1V-Thinking에서 공개되었다.
English
We present GLM-4.1V-Thinking, a vision-language model (VLM) designed to advance general-purpose multimodal reasoning. In this report, we share our key findings in the development of the reasoning-centric training framework. We first develop a capable vision foundation model with significant potential through large-scale pre-training, which arguably sets the upper bound for the final performance. Reinforcement Learning with Curriculum Sampling (RLCS) then unlocks the full potential of the model, leading to comprehensive capability enhancement across a diverse range of tasks, including STEM problem solving, video understanding, content recognition, coding, grounding, GUI-based agents, and long document understanding, among others. To facilitate research in this field, we open-source GLM-4.1V-9B-Thinking, which achieves state-of-the-art performance among models of comparable size. In a comprehensive evaluation across 28 public benchmarks, our model outperforms Qwen2.5-VL-7B on nearly all tasks and achieves comparable or even superior performance on 18 benchmarks relative to the significantly larger Qwen2.5-VL-72B. Notably, GLM-4.1V-9B-Thinking also demonstrates competitive or superior performance compared to closed-source models such as GPT-4o on challenging tasks including long document understanding and STEM reasoning, further underscoring its strong capabilities. Code, models and more information are released at https://github.com/THUDM/GLM-4.1V-Thinking.
PDF1513July 2, 2025