ChatPaper.aiChatPaper

Monet: Razonamiento en el Espacio Visual Latente Más Allá de las Imágenes y el Lenguaje

Monet: Reasoning in Latent Visual Space Beyond Images and Language

November 26, 2025
Autores: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang
cs.AI

Resumen

"Pensar con imágenes" ha surgido como un paradigma eficaz para avanzar en el razonamiento visual, extendiéndose más allá de las cadenas de pensamiento basadas únicamente en texto mediante la inyección de evidencia visual en los pasos intermedios del razonamiento. Sin embargo, los métodos existentes distan del pensamiento visual abstracto similar al humano, ya que su flexibilidad está fundamentalmente limitada por herramientas externas. En este trabajo, presentamos Monet, un marco de entrenamiento que permite a los modelos de lenguaje grandes multimodales (MLLMs) razonar directamente dentro del espacio visual latente mediante la generación de *embeddings* continuos que funcionan como pensamientos visuales intermedios. Identificamos dos desafíos centrales en el entrenamiento de MLLMs para el razonamiento visual latente: el alto costo computacional en la alineación latente-visual y la supervisión insuficiente sobre los *embeddings* latentes, y los abordamos con una *pipeline* de ajuste fino supervisado (*SFT*) basado en destilación de tres etapas. Además, revelamos una limitación de aplicar GRPO al razonamiento latente: principalmente mejora el razonamiento basado en texto en lugar del razonamiento latente. Para superar esto, proponemos VLPO (Optimización de Políticas con Latentes Visuales), un método de aprendizaje por refuerzo que incorpora explícitamente los *embeddings* latentes en las actualizaciones del gradiente de la política. Para respaldar el SFT, construimos Monet-SFT-125K, un conjunto de datos CoT intercalado texto-imagen de alta calidad que contiene 125K CoTs del mundo real, de gráficos, OCR y geometría. Nuestro modelo, Monet-7B, muestra ganancias consistentes en varios benchmarks de percepción y razonamiento del mundo real y exhibe una fuerte generalización fuera de distribución en tareas desafiantes de razonamiento visual abstracto. También analizamos empíricamente el papel de cada componente de entrenamiento y discutimos nuestros intentos iniciales fallidos, proporcionando ideas para futuros desarrollos en el razonamiento visual latente. Nuestro modelo, datos y código están disponibles en https://github.com/NOVAglow646/Monet.
English
"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.
PDF142December 1, 2025