GLM-4.1V-Thinking: Op weg naar veelzijdige multimodale redenering met schaalbare reinforcement learning
GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
July 1, 2025
Auteurs: Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Leyi Pan, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianle Gong, Wenkai Li, Wei Jia, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Xue, Yanfeng Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuxuan Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI
Samenvatting
We presenteren GLM-4.1V-Thinking, een vision-language model (VLM) dat is ontworpen om algemeen toepasbare multimodale redenering te bevorderen. In dit rapport delen we onze belangrijkste bevindingen in de ontwikkeling van het op redenering gerichte trainingsframework. We ontwikkelen eerst een krachtig visueel basis model met aanzienlijk potentieel door grootschalige voorafgaande training, wat naar alle waarschijnlijkheid de bovengrens bepaalt voor de uiteindelijke prestaties. Reinforcement Learning met Curriculum Sampling (RLCS) ontgrendelt vervolgens het volledige potentieel van het model, wat leidt tot een uitgebreide verbetering van de mogelijkheden over een breed scala aan taken, waaronder STEM-probleemoplossing, video-begrip, inhoudsherkenning, coderen, gronding, GUI-gebaseerde agents en het begrijpen van lange documenten, onder andere. Om onderzoek op dit gebied te faciliteren, maken we GLM-4.1V-9B-Thinking open source, dat state-of-the-art prestaties behaalt onder modellen van vergelijkbare grootte. In een uitgebreide evaluatie over 28 publieke benchmarks presteert ons model beter dan Qwen2.5-VL-7B op bijna alle taken en behaalt het vergelijkbare of zelfs superieure prestaties op 18 benchmarks ten opzichte van het aanzienlijk grotere Qwen2.5-VL-72B. Opmerkelijk is dat GLM-4.1V-9B-Thinking ook competitieve of superieure prestaties laat zien in vergelijking met gesloten modellen zoals GPT-4o op uitdagende taken, waaronder het begrijpen van lange documenten en STEM-redenering, wat verder onderstreept hoe sterk de mogelijkheden zijn. Code, modellen en meer informatie zijn vrijgegeven op https://github.com/THUDM/GLM-4.1V-Thinking.
English
We present GLM-4.1V-Thinking, a vision-language model (VLM) designed to
advance general-purpose multimodal reasoning. In this report, we share our key
findings in the development of the reasoning-centric training framework. We
first develop a capable vision foundation model with significant potential
through large-scale pre-training, which arguably sets the upper bound for the
final performance. Reinforcement Learning with Curriculum Sampling (RLCS) then
unlocks the full potential of the model, leading to comprehensive capability
enhancement across a diverse range of tasks, including STEM problem solving,
video understanding, content recognition, coding, grounding, GUI-based agents,
and long document understanding, among others. To facilitate research in this
field, we open-source GLM-4.1V-9B-Thinking, which achieves state-of-the-art
performance among models of comparable size. In a comprehensive evaluation
across 28 public benchmarks, our model outperforms Qwen2.5-VL-7B on nearly all
tasks and achieves comparable or even superior performance on 18 benchmarks
relative to the significantly larger Qwen2.5-VL-72B. Notably,
GLM-4.1V-9B-Thinking also demonstrates competitive or superior performance
compared to closed-source models such as GPT-4o on challenging tasks including
long document understanding and STEM reasoning, further underscoring its strong
capabilities. Code, models and more information are released at
https://github.com/THUDM/GLM-4.1V-Thinking.