GLM-5V-Turbo: Verso un Modello Base Nativo per Agenti Multimodali

Abstract

Presentiamo GLM-5V-Turbo, un passo verso modelli fondativi nativi per agenti multimodali. Man mano che i modelli fondativi vengono sempre più impiegati in ambienti reali, le capacità agentistiche dipendono non solo dal ragionamento linguistico, ma anche dalla capacità di percepire, interpretare e agire su contesti eterogenei come immagini, video, pagine web, documenti e interfacce utente grafiche (GUI). GLM-5V-Turbo è costruito attorno a questo obiettivo: la percezione multimodale è integrata come componente centrale del ragionamento, della pianificazione, dell'uso di strumenti e dell'esecuzione, piuttosto che come un'interfaccia ausiliaria per un modello linguistico. Questo rapporto riassume i principali miglioramenti alla base di GLM-5V-Turbo nell'ambito della progettazione del modello, dell'addestramento multimodale, dell'apprendimento per rinforzo, dell'espansione della toolchain e dell'integrazione con framework per agenti. Questi sviluppi portano a prestazioni solide nel coding multimodale, nell'uso di strumenti visivi e in compiti agentistici basati su framework, preservando al contempo una competitiva capacità di coding su solo testo. Ancora più importante, il nostro processo di sviluppo offre spunti pratici per la costruzione di agenti multimodali, evidenziando il ruolo centrale della percezione multimodale, dell'ottimizzazione gerarchica e di una verifica end-to-end affidabile.

English

We present GLM-5V-Turbo, a step toward native foundation models for multimodal agents. As foundation models are increasingly deployed in real environments, agentic capability depends not only on language reasoning, but also on the ability to perceive, interpret, and act over heterogeneous contexts such as images, videos, webpages, documents, GUIs. GLM-5V-Turbo is built around this objective: multimodal perception is integrated as a core component of reasoning, planning, tool use, and execution, rather than as an auxiliary interface to a language model. This report summarizes the main improvements behind GLM-5V-Turbo across model design, multimodal training, reinforcement learning, toolchain expansion, and integration with agent frameworks. These developments lead to strong performance in multimodal coding, visual tool use, and framework-based agentic tasks, while preserving competitive text-only coding capability. More importantly, our development process offers practical insights for building multimodal agents, highlighting the central role of multimodal perception, hierarchical optimization, and reliable end-to-end verification.

GLM-5V-Turbo: Verso un Modello Base Nativo per Agenti Multimodali

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Abstract

Support