ChatPaper.aiChatPaper

Monet: Reasoning im latenten visuellen Raum jenseits von Bildern und Sprache

Monet: Reasoning in Latent Visual Space Beyond Images and Language

November 26, 2025
papers.authors: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang
cs.AI

papers.abstract

"Denken mit Bildern" hat sich als effektives Paradigma zur Weiterentwicklung des visuellen Denkens etabliert, das über rein textbasierte Gedankenketten hinausgeht, indem visuelle Evidenz in Zwischenschritte des Schlussfolgerns eingebracht wird. Bisherige Methoden erreichen jedoch kein menschenähnliches abstraktes visuelles Denken, da ihre Flexibilität grundlegend durch externe Werkzeuge begrenzt ist. In dieser Arbeit stellen wir Monet vor, ein Trainingsframework, das multimodalen großen Sprachmodellen (MLLMs) ermöglicht, direkt im latenten visuellen Raum zu schlussfolgern, indem sie kontinuierliche Einbettungen erzeugen, die als intermediäre visuelle Gedanken fungieren. Wir identifizieren zwei zentrale Herausforderungen beim Training von MLLMs für latentes visuelles Denken: hohe Rechenkosten bei der Latent-Vision-Ausrichtung und unzureichende Überwachung der latenten Einbettungen, und adressieren diese mit einer dreistufigen, distillationsbasierten Supervised Fine-Tuning (SFT)-Pipeline. Wir zeigen weiterhin eine Limitation der Anwendung von GRPO auf latentes Denken auf: Es verbessert primär textbasiertes Denken anstatt latentes Denken. Um dies zu überwinden, schlagen wir VLPO (Visual-latent Policy Optimization) vor, eine Reinforcement-Learning-Methode, die latente Einbettungen explizit in Policy-Gradient-Updates einbezieht. Zur Unterstützung von SFT haben wir Monet-SFT-125K konstruiert, einen hochwertigen, textbild-verschränkten CoT-Datensatz mit 125K Real-World-, Diagramm-, OCR- und Geometrie-CoTs. Unser Modell, Monet-7B, zeigt konsistenten Zugewinn über Real-World-Wahrnehmungs- und Reasoning-Benchmarks hinweg und weist eine starke Out-of-Distribution-Generalisation bei anspruchsvollen Aufgaben zum abstrakten visuellen Denken auf. Wir analysieren zudem empirisch die Rolle jeder Trainingskomponente und diskutieren unsere früheren erfolglosen Versuche, um Erkenntnisse für zukünftige Entwicklungen im visuellen latenten Denken zu liefern. Unser Modell, die Daten und der Code sind verfügbar unter https://github.com/NOVAglow646/Monet.
English
"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.
PDF142December 1, 2025