GLM-4.1V-Thinking: Verso un Ragionamento Multimodale Versatile con Apprendimento per Rinforzo Scalabile
GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
July 1, 2025
Autori: Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Leyi Pan, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianle Gong, Wenkai Li, Wei Jia, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Xue, Yanfeng Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuxuan Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI
Abstract
Presentiamo GLM-4.1V-Thinking, un modello visione-linguaggio (VLM) progettato per avanzare il ragionamento multimodale a scopo generale. In questo rapporto, condividiamo i nostri principali risultati nello sviluppo del framework di addestramento centrato sul ragionamento. Inizialmente, sviluppiamo un modello di base per la visione con un potenziale significativo attraverso un pre-addestramento su larga scala, che stabilisce di fatto il limite superiore per le prestazioni finali. Successivamente, il Reinforcement Learning con Curriculum Sampling (RLCS) sblocca il pieno potenziale del modello, portando a un miglioramento completo delle capacità su un'ampia gamma di compiti, tra cui la risoluzione di problemi STEM, la comprensione di video, il riconoscimento di contenuti, la codifica, il grounding, agenti basati su GUI e la comprensione di documenti lunghi, tra gli altri. Per facilitare la ricerca in questo campo, rendiamo open-source GLM-4.1V-9B-Thinking, che raggiunge prestazioni all'avanguardia tra i modelli di dimensioni comparabili. In una valutazione completa su 28 benchmark pubblici, il nostro modello supera Qwen2.5-VL-7B su quasi tutti i compiti e ottiene prestazioni comparabili o addirittura superiori su 18 benchmark rispetto al significativamente più grande Qwen2.5-VL-72B. In particolare, GLM-4.1V-9B-Thinking dimostra anche prestazioni competitive o superiori rispetto a modelli closed-source come GPT-4o su compiti impegnativi tra cui la comprensione di documenti lunghi e il ragionamento STEM, sottolineando ulteriormente le sue forti capacità. Codice, modelli e ulteriori informazioni sono disponibili all'indirizzo https://github.com/THUDM/GLM-4.1V-Thinking.
English
We present GLM-4.1V-Thinking, a vision-language model (VLM) designed to
advance general-purpose multimodal reasoning. In this report, we share our key
findings in the development of the reasoning-centric training framework. We
first develop a capable vision foundation model with significant potential
through large-scale pre-training, which arguably sets the upper bound for the
final performance. Reinforcement Learning with Curriculum Sampling (RLCS) then
unlocks the full potential of the model, leading to comprehensive capability
enhancement across a diverse range of tasks, including STEM problem solving,
video understanding, content recognition, coding, grounding, GUI-based agents,
and long document understanding, among others. To facilitate research in this
field, we open-source GLM-4.1V-9B-Thinking, which achieves state-of-the-art
performance among models of comparable size. In a comprehensive evaluation
across 28 public benchmarks, our model outperforms Qwen2.5-VL-7B on nearly all
tasks and achieves comparable or even superior performance on 18 benchmarks
relative to the significantly larger Qwen2.5-VL-72B. Notably,
GLM-4.1V-9B-Thinking also demonstrates competitive or superior performance
compared to closed-source models such as GPT-4o on challenging tasks including
long document understanding and STEM reasoning, further underscoring its strong
capabilities. Code, models and more information are released at
https://github.com/THUDM/GLM-4.1V-Thinking.