GLM-4.1V-Thinking : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

papers.abstract

Nous présentons GLM-4.1V-Thinking, un modèle vision-langage (VLM) conçu pour faire progresser le raisonnement multimodal à usage général. Dans ce rapport, nous partageons nos principales découvertes dans le développement d'un cadre d'entraînement centré sur le raisonnement. Nous avons d'abord développé un modèle de base visuel performant avec un potentiel significatif grâce à un pré-entraînement à grande échelle, ce qui établit sans doute la limite supérieure des performances finales. L'apprentissage par renforcement avec échantillonnage curriculaire (RLCS) débloque ensuite le plein potentiel du modèle, conduisant à une amélioration globale des capacités sur une large gamme de tâches, incluant la résolution de problèmes STEM, la compréhension vidéo, la reconnaissance de contenu, le codage, l'ancrage, les agents basés sur des interfaces graphiques, et la compréhension de documents longs, entre autres. Pour faciliter la recherche dans ce domaine, nous rendons open-source GLM-4.1V-9B-Thinking, qui atteint des performances de pointe parmi les modèles de taille comparable. Dans une évaluation complète sur 28 benchmarks publics, notre modèle surpasse Qwen2.5-VL-7B sur presque toutes les tâches et obtient des performances comparables voire supérieures sur 18 benchmarks par rapport au modèle nettement plus grand Qwen2.5-VL-72B. Notamment, GLM-4.1V-9B-Thinking démontre également des performances compétitives ou supérieures par rapport aux modèles propriétaires tels que GPT-4o sur des tâches complexes incluant la compréhension de documents longs et le raisonnement STEM, soulignant davantage ses fortes capacités. Le code, les modèles et plus d'informations sont disponibles à l'adresse https://github.com/THUDM/GLM-4.1V-Thinking.

English

We present GLM-4.1V-Thinking, a vision-language model (VLM) designed to advance general-purpose multimodal reasoning. In this report, we share our key findings in the development of the reasoning-centric training framework. We first develop a capable vision foundation model with significant potential through large-scale pre-training, which arguably sets the upper bound for the final performance. Reinforcement Learning with Curriculum Sampling (RLCS) then unlocks the full potential of the model, leading to comprehensive capability enhancement across a diverse range of tasks, including STEM problem solving, video understanding, content recognition, coding, grounding, GUI-based agents, and long document understanding, among others. To facilitate research in this field, we open-source GLM-4.1V-9B-Thinking, which achieves state-of-the-art performance among models of comparable size. In a comprehensive evaluation across 28 public benchmarks, our model outperforms Qwen2.5-VL-7B on nearly all tasks and achieves comparable or even superior performance on 18 benchmarks relative to the significantly larger Qwen2.5-VL-72B. Notably, GLM-4.1V-9B-Thinking also demonstrates competitive or superior performance compared to closed-source models such as GPT-4o on challenging tasks including long document understanding and STEM reasoning, further underscoring its strong capabilities. Code, models and more information are released at https://github.com/THUDM/GLM-4.1V-Thinking.

GLM-4.1V-Thinking : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

papers.abstract

Support