GLM-5V-Turbo : Vers un modèle de fondation natif pour les agents multimodaux

Résumé

Nous présentons GLM-5V-Turbo, une avancée vers des modèles de fondation natifs pour les agents multimodaux. Alors que les modèles de fondation sont de plus en plus déployés dans des environnements réels, les capacités agentielles dépendent non seulement du raisonnement linguistique, mais aussi de la capacité à percevoir, interpréter et agir sur des contextes hétérogènes tels que les images, les vidéos, les pages web, les documents et les interfaces graphiques. GLM-5V-Turbo est conçu autour de cet objectif : la perception multimodale est intégrée comme une composante centrale du raisonnement, de la planification, de l'utilisation d'outils et de l'exécution, plutôt que comme une interface auxiliaire pour un modèle linguistique. Ce rapport résume les principales améliorations apportées à GLM-5V-Turbo concernant la conception du modèle, l'entraînement multimodal, l'apprentissage par renforcement, l'expansion de la chaîne d'outils et l'intégration avec des frameworks d'agents. Ces développements conduisent à de solides performances dans le codage multimodal, l'utilisation d'outils visuels et les tâches agentielles basées sur des frameworks, tout en préservant une capacité compétitive en codage texte seul. Plus important encore, notre processus de développement offre des insights pratiques pour la construction d'agents multimodaux, en soulignant le rôle central de la perception multimodale, de l'optimisation hiérarchique et de la vérification fiable de bout en bout.

English

We present GLM-5V-Turbo, a step toward native foundation models for multimodal agents. As foundation models are increasingly deployed in real environments, agentic capability depends not only on language reasoning, but also on the ability to perceive, interpret, and act over heterogeneous contexts such as images, videos, webpages, documents, GUIs. GLM-5V-Turbo is built around this objective: multimodal perception is integrated as a core component of reasoning, planning, tool use, and execution, rather than as an auxiliary interface to a language model. This report summarizes the main improvements behind GLM-5V-Turbo across model design, multimodal training, reinforcement learning, toolchain expansion, and integration with agent frameworks. These developments lead to strong performance in multimodal coding, visual tool use, and framework-based agentic tasks, while preserving competitive text-only coding capability. More importantly, our development process offers practical insights for building multimodal agents, highlighting the central role of multimodal perception, hierarchical optimization, and reliable end-to-end verification.

GLM-5V-Turbo : Vers un modèle de fondation natif pour les agents multimodaux

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Résumé

Support