GLM-5V-Turbo: Hacia un Modelo Base Nativo para Agentes Multimodales

Resumen

Presentamos GLM-5V-Turbo, un avance hacia modelos de base nativos para agentes multimodales. A medida que los modelos de base se despliegan cada vez más en entornos reales, la capacidad de agente no solo depende del razonamiento lingüístico, sino también de la habilidad para percibir, interpretar y actuar sobre contextos heterogéneos como imágenes, videos, páginas web, documentos e interfaces gráficas de usuario. GLM-5V-Turbo se construye en torno a este objetivo: la percepción multimodal se integra como un componente central del razonamiento, la planificación, el uso de herramientas y la ejecución, en lugar de como una interfaz auxiliar para un modelo de lenguaje. Este informe resume las principales mejoras detrás de GLM-5V-Turbo en diseño de modelos, entrenamiento multimodal, aprendizaje por refuerzo, expansión de la cadena de herramientas e integración con marcos de agentes. Estos avances conducen a un rendimiento sólido en codificación multimodal, uso de herramientas visuales y tareas de agente basadas en marcos, al tiempo que se preserva una capacidad competitiva de codificación solo con texto. Más importante aún, nuestro proceso de desarrollo ofrece perspectivas prácticas para la construcción de agentes multimodales, destacando el papel central de la percepción multimodal, la optimización jerárquica y la verificación confiable de extremo a extremo.

English

We present GLM-5V-Turbo, a step toward native foundation models for multimodal agents. As foundation models are increasingly deployed in real environments, agentic capability depends not only on language reasoning, but also on the ability to perceive, interpret, and act over heterogeneous contexts such as images, videos, webpages, documents, GUIs. GLM-5V-Turbo is built around this objective: multimodal perception is integrated as a core component of reasoning, planning, tool use, and execution, rather than as an auxiliary interface to a language model. This report summarizes the main improvements behind GLM-5V-Turbo across model design, multimodal training, reinforcement learning, toolchain expansion, and integration with agent frameworks. These developments lead to strong performance in multimodal coding, visual tool use, and framework-based agentic tasks, while preserving competitive text-only coding capability. More importantly, our development process offers practical insights for building multimodal agents, highlighting the central role of multimodal perception, hierarchical optimization, and reliable end-to-end verification.

GLM-5V-Turbo: Hacia un Modelo Base Nativo para Agentes Multimodales

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Resumen

Support