ChatPaper.aiChatPaper

Monet: Redeneren in de Latente Visuele Ruimte voorbij Beelden en Taal

Monet: Reasoning in Latent Visual Space Beyond Images and Language

November 26, 2025
Auteurs: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang
cs.AI

Samenvatting

"Denken met beelden" is naar voren gekomen als een effectief paradigma voor het bevorderen van visueel redeneren, dat verder gaat dan tekstuele denkketens door visuele aanwijzingen in te brengen in tussenliggende redeneerstappen. Bestaande methoden schieten echter tekort in het nabootsen van menselijk abstract visueel denken, omdat hun flexibiliteit fundamenteel wordt beperkt door externe hulpmiddelen. In dit werk introduceren we Monet, een trainingsraamwerk dat multimodale grote taalmodellen (MLLM's) in staat stelt om direct te redeneren binnen de latente visuele ruimte door continue embeddings te genereren die fungeren als tussenliggende visuele gedachten. Wij identificeren twee kernuitdagingen bij het trainen van MLLM's voor latent visueel redeneren: hoge computationele kosten bij latent-visuele alignering en onvoldoende supervisie over latente embeddings, en pakken deze aan met een driedelige, op distillatie gebaseerde supervised fine-tuning (SFT) pijplijn. Verder leggen we een beperking bloot van het toepassen van GRPO op latent redeneren: het verbetert voornamelijk tekstgebaseerd redeneren in plaats van latent redeneren. Om dit te overwinnen, stellen we VLPO (Visual-latent Policy Optimization) voor, een reinforcement learning-methode die latent embeddings expliciet opneemt in policy gradient-updates. Ter ondersteuning van SFT construeren we Monet-SFT-125K, een hoogwaardige, door tekst en beeld afgewisselde CoT-dataset met 125K real-world, chart, OCR en geometry CoT's. Ons model, Monet-7B, laat consistente verbeteringen zien op diverse real-world perceptie- en redeneerbenchmarks en vertoont sterke generalisatie buiten de verdeling op uitdagende abstracte visuele redeneertaken. We analyseren ook empirisch de rol van elke trainingscomponent en bespreken onze eerdere niet-succesvolle pogingen, wat inzichten biedt voor toekomstige ontwikkelingen in visueel latent redeneren. Ons model, data en code zijn beschikbaar op https://github.com/NOVAglow646/Monet.
English
"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.
PDF142December 1, 2025