GLM-5V-Turbo: Auf dem Weg zu einem nativen Basismodell für multimodale Agenten

Zusammenfassung

Wir stellen GLM-5V-Turbo vor, einen Schritt hin zu nativen Foundation-Modellen für multimodale Agenten. Da Foundation-Modelle zunehmend in realen Umgebungen eingesetzt werden, hängt die agentische Fähigkeit nicht nur von Sprachverständnis ab, sondern auch von der Fähigkeit, heterogene Kontexte wie Bilder, Videos, Webseiten, Dokumente und GUIs wahrzunehmen, zu interpretieren und darauf zu agieren. GLM-5V-Turbo ist um dieses Ziel herum aufgebaut: Multimodale Wahrnehmung ist als Kernkomponente des Denkens, Planens, Werkzeuggebrauchs und der Ausführung integriert und nicht nur als zusätzliche Schnittstelle zu einem Sprachmodell. Dieser Bericht fasst die wesentlichen Verbesserungen von GLM-5V-Turbo in den Bereichen Modelldesign, multimodales Training, bestärkendes Lernen, Werkzeugketten-Erweiterung und Integration mit Agenten-Frameworks zusammen. Diese Entwicklungen führen zu einer starken Leistung in multimodaler Programmierung, visuellem Werkzeuggebrauch und framework-basierten agentischen Aufgaben, bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen reinen Text-Programmierfähigkeit. Noch wichtiger ist, dass unser Entwicklungsprozess praktische Einblicke für den Aufbau multimodaler Agenten bietet und die zentrale Rolle multimodaler Wahrnehmung, hierarchischer Optimierung und zuverlässiger End-to-End-Verifizierung hervorhebt.

English

We present GLM-5V-Turbo, a step toward native foundation models for multimodal agents. As foundation models are increasingly deployed in real environments, agentic capability depends not only on language reasoning, but also on the ability to perceive, interpret, and act over heterogeneous contexts such as images, videos, webpages, documents, GUIs. GLM-5V-Turbo is built around this objective: multimodal perception is integrated as a core component of reasoning, planning, tool use, and execution, rather than as an auxiliary interface to a language model. This report summarizes the main improvements behind GLM-5V-Turbo across model design, multimodal training, reinforcement learning, toolchain expansion, and integration with agent frameworks. These developments lead to strong performance in multimodal coding, visual tool use, and framework-based agentic tasks, while preserving competitive text-only coding capability. More importantly, our development process offers practical insights for building multimodal agents, highlighting the central role of multimodal perception, hierarchical optimization, and reliable end-to-end verification.

GLM-5V-Turbo: Auf dem Weg zu einem nativen Basismodell für multimodale Agenten

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Zusammenfassung

Support