ChatPaper.aiChatPaper

Monet: Ragionamento nello spazio visivo latente oltre immagini e linguaggio

Monet: Reasoning in Latent Visual Space Beyond Images and Language

November 26, 2025
Autori: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang
cs.AI

Abstract

Il "ragionamento per immagini" è emerso come un paradigma efficace per avanzare il ragionamento visivo, estendendosi oltre le catene di pensiero puramente testuali attraverso l'iniezione di evidenze visive nei passaggi intermedi del ragionamento. Tuttavia, i metodi esistenti sono carenti rispetto al pensiero visivo astratto umano, poiché la loro flessibilità è fondamentalmente limitata da strumenti esterni. In questo lavoro, introduciamo Monet, un framework di addestramento che consente ai grandi modelli linguistici multimodali (MLLM) di ragionare direttamente all'interno dello spazio visivo latente generando embedding continui che fungono da pensieri visivi intermedi. Identifichiamo due sfide fondamentali nell'addestrare MLLM per il ragionamento visivo latente: l'elevato costo computazionale nell'allineamento visivo latente e la supervisione insufficiente sugli embedding latenti, e le affrontiamo con una pipeline di fine-tuning supervisionato (SFT) basata su distillazione in tre fasi. Inoltre, riveliamo una limitazione nell'applicare GRPO al ragionamento latente: esso migliora principalmente il ragionamento basato sul testo piuttosto che quello latente. Per superare questo problema, proponiamo VLPO (Ottimizzazione delle Politiche Visuali-Latenti), un metodo di apprendimento per rinforzo che incorpora esplicitamente gli embedding latenti negli aggiornamenti del gradiente della politica. Per supportare l'SFT, costruiamo Monet-SFT-125K, un dataset CoT (Chain of Thought) intercalato testo-immagine di alta qualità contenente 125K CoT del mondo reale, di grafici, OCR e geometria. Il nostro modello, Monet-7B, mostra miglioramenti consistenti su benchmark di percezione e ragionamento del mondo reale ed esibisce una forte generalizzazione fuori distribuzione su compiti impegnativi di ragionamento visivo astratto. Analizziamo empiricamente anche il ruolo di ciascun componente di addestramento e discutiamo i nostri primi tentativi infruttuosi, fornendo spunti per futuri sviluppi nel ragionamento visivo latente. Il nostro modello, i dati e il codice sono disponibili su https://github.com/NOVAglow646/Monet.
English
"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.
PDF142December 1, 2025