Monet : Raisonner dans l'espace visuel latent au-delà des images et du langage
Monet: Reasoning in Latent Visual Space Beyond Images and Language
November 26, 2025
papers.authors: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang
cs.AI
papers.abstract
« Penser avec des images » est apparu comme un paradigme efficace pour faire progresser le raisonnement visuel, dépassant les chaînes de pensée purement textuelles en injectant des preuves visuelles dans les étapes de raisonnement intermédiaires. Cependant, les méthodes existantes sont loin d'égaler la pensée visuelle abstraite humaine, car leur flexibilité est fondamentalement limitée par des outils externes. Dans ce travail, nous présentons Monet, un cadre d'apprentissage qui permet aux grands modèles de langage multimodaux (MLLM) de raisonner directement dans l'espace visuel latent en générant des embeddings continus qui fonctionnent comme des pensées visuelles intermédiaires. Nous identifions deux défis principaux dans l'entraînement des MLLM pour le raisonnement visuel latent : le coût computationnel élevé de l'alignement visuel latent et la supervision insuffisante des embeddings latents, et nous les abordons avec un pipeline de fine-tuning supervisé (SFT) en trois étapes basé sur la distillation. Nous révélons en outre une limite de l'application de GRPO au raisonnement latent : il améliore principalement le raisonnement basé sur le texte plutôt que le raisonnement latent. Pour surmonter cela, nous proposons VLPO (Optimisation de Politique en Latent Visuel), une méthode d'apprentissage par renforcement qui intègre explicitement les embeddings latents dans les mises à jour du gradient de politique. Pour soutenir le SFT, nous construisons Monet-SFT-125K, un jeu de données CoT entrelacé texte-image de haute qualité contenant 125K CoTs du monde réel, de graphiques, d'OCR et de géométrie. Notre modèle, Monet-7B, montre des gains constants sur divers benchmarks de perception et de raisonnement du monde réel et présente une forte généralisation hors distribution sur des tâches de raisonnement visuel abstrait difficiles. Nous analysons également empiriquement le rôle de chaque composant d'entraînement et discutons de nos premières tentatives infructueuses, fournissant des insights pour les développements futurs en raisonnement visuel latent. Notre modèle, nos données et notre code sont disponibles à l'adresse https://github.com/NOVAglow646/Monet.
English
"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.