GLM-4.1V-Thinking: Hacia un Razonamiento Multimodal Versátil con Aprendizaje por Refuerzo Escalable

Resumen

Presentamos GLM-4.1V-Thinking, un modelo de lenguaje visual (VLM) diseñado para avanzar en el razonamiento multimodal de propósito general. En este informe, compartimos nuestros hallazgos clave en el desarrollo del marco de entrenamiento centrado en el razonamiento. Primero desarrollamos un modelo base de visión capaz con un potencial significativo a través de un preentrenamiento a gran escala, lo que establece, sin duda, el límite superior para el rendimiento final. El Aprendizaje por Refuerzo con Muestreo Curricular (RLCS) luego desbloquea todo el potencial del modelo, lo que conduce a una mejora integral de capacidades en una amplia gama de tareas, incluyendo la resolución de problemas STEM, la comprensión de videos, el reconocimiento de contenido, la codificación, la fundamentación, agentes basados en GUI y la comprensión de documentos largos, entre otros. Para facilitar la investigación en este campo, liberamos el código de GLM-4.1V-9B-Thinking, que logra un rendimiento de vanguardia entre modelos de tamaño comparable. En una evaluación exhaustiva en 28 benchmarks públicos, nuestro modelo supera a Qwen2.5-VL-7B en casi todas las tareas y alcanza un rendimiento comparable o incluso superior en 18 benchmarks en relación con el significativamente más grande Qwen2.5-VL-72B. Notablemente, GLM-4.1V-9B-Thinking también demuestra un rendimiento competitivo o superior en comparación con modelos de código cerrado como GPT-4o en tareas desafiantes, incluyendo la comprensión de documentos largos y el razonamiento STEM, lo que subraya aún más sus fuertes capacidades. El código, los modelos y más información se publican en https://github.com/THUDM/GLM-4.1V-Thinking.

English

We present GLM-4.1V-Thinking, a vision-language model (VLM) designed to advance general-purpose multimodal reasoning. In this report, we share our key findings in the development of the reasoning-centric training framework. We first develop a capable vision foundation model with significant potential through large-scale pre-training, which arguably sets the upper bound for the final performance. Reinforcement Learning with Curriculum Sampling (RLCS) then unlocks the full potential of the model, leading to comprehensive capability enhancement across a diverse range of tasks, including STEM problem solving, video understanding, content recognition, coding, grounding, GUI-based agents, and long document understanding, among others. To facilitate research in this field, we open-source GLM-4.1V-9B-Thinking, which achieves state-of-the-art performance among models of comparable size. In a comprehensive evaluation across 28 public benchmarks, our model outperforms Qwen2.5-VL-7B on nearly all tasks and achieves comparable or even superior performance on 18 benchmarks relative to the significantly larger Qwen2.5-VL-72B. Notably, GLM-4.1V-9B-Thinking also demonstrates competitive or superior performance compared to closed-source models such as GPT-4o on challenging tasks including long document understanding and STEM reasoning, further underscoring its strong capabilities. Code, models and more information are released at https://github.com/THUDM/GLM-4.1V-Thinking.

GLM-4.1V-Thinking: Hacia un Razonamiento Multimodal Versátil con Aprendizaje por Refuerzo Escalable

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Resumen

Support