GLM-5V-Turbo: Rumo a um Modelo de Base Nativo para Agentes Multimodais

Resumo

Apresentamos o GLM-5V-Turbo, um passo em direção a modelos de base nativos para agentes multimodais. À medida que os modelos de base são cada vez mais implantados em ambientes reais, a capacidade agentiva depende não apenas do raciocínio linguístico, mas também da capacidade de perceber, interpretar e agir sobre contextos heterogêneos, como imagens, vídeos, páginas da web, documentos e interfaces gráficas de utilizador (GUIs). O GLM-5V-Turbo foi construído em torno deste objetivo: a perceção multimodal é integrada como um componente central do raciocínio, planeamento, uso de ferramentas e execução, e não como uma interface auxiliar para um modelo de linguagem. Este relatório resume as principais melhorias por trás do GLM-5V-Turbo em termos de design do modelo, treino multimodal, aprendizagem por reforço, expansão da cadeia de ferramentas e integração com estruturas de agentes. Esses desenvolvimentos resultam num desempenho sólido em codificação multimodal, uso de ferramentas visuais e tarefas agentivas baseadas em estruturas, mantendo ao mesmo tempo uma capacidade competitiva de codificação apenas com texto. Mais importante ainda, o nosso processo de desenvolvimento oferece insights práticos para a construção de agentes multimodais, destacando o papel central da perceção multimodal, da otimização hierárquica e da verificação fiável de ponta a ponta.

English

We present GLM-5V-Turbo, a step toward native foundation models for multimodal agents. As foundation models are increasingly deployed in real environments, agentic capability depends not only on language reasoning, but also on the ability to perceive, interpret, and act over heterogeneous contexts such as images, videos, webpages, documents, GUIs. GLM-5V-Turbo is built around this objective: multimodal perception is integrated as a core component of reasoning, planning, tool use, and execution, rather than as an auxiliary interface to a language model. This report summarizes the main improvements behind GLM-5V-Turbo across model design, multimodal training, reinforcement learning, toolchain expansion, and integration with agent frameworks. These developments lead to strong performance in multimodal coding, visual tool use, and framework-based agentic tasks, while preserving competitive text-only coding capability. More importantly, our development process offers practical insights for building multimodal agents, highlighting the central role of multimodal perception, hierarchical optimization, and reliable end-to-end verification.

GLM-5V-Turbo: Rumo a um Modelo de Base Nativo para Agentes Multimodais

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Resumo

Support