Monet: Raciocínio no Espaço Visual Latente Além de Imagens e Linguagem

Resumo

"Pensar com imagens" emergiu como um paradigma eficaz para avançar o raciocínio visual, estendendo-se além das cadeias de pensamento baseadas apenas em texto ao injetar evidências visuais nas etapas intermediárias de raciocínio. No entanto, os métodos existentes ficam aquém do pensamento visual abstrato semelhante ao humano, pois sua flexibilidade é fundamentalmente limitada por ferramentas externas. Neste trabalho, introduzimos Monet, um framework de treinamento que permite aos grandes modelos de linguagem multimodal (MLLMs) raciocinar diretamente dentro do espaço visual latente, gerando *embeddings* contínuos que funcionam como pensamentos visuais intermediários. Identificamos dois desafios centrais no treinamento de MLLMs para raciocínio visual latente: o alto custo computacional no alinhamento latente-visual e a supervisão insuficiente sobre os *embeddings* latentes, e os abordamos com um *pipeline* de ajuste fino supervisionado (*SFT*) baseado em destilação em três estágios. Revelamos ainda uma limitação da aplicação do GRPO ao raciocínio latente: ele aprimora principalmente o raciocínio baseado em texto, e não o raciocínio latente. Para superar isso, propomos o VLPO (Otimização de Política Visual-Latente), um método de aprendizado por reforço que incorpora explicitamente os *embeddings* latentes nas atualizações de gradiente de política. Para suportar o SFT, construímos Monet-SFT-125K, um conjunto de dados CoT intercalado texto-imagem de alta qualidade contendo 125K CoTs do mundo real, de gráficos, OCR e geometria. Nosso modelo, Monet-7B, mostra ganhos consistentes em benchmarks de percepção e raciocínio do mundo real e exibe forte generalização fora da distribuição em tarefas desafiadoras de raciocínio visual abstrato. Também analisamos empiricamente o papel de cada componente de treinamento e discutimos nossas tentativas iniciais malsucedidas, fornecendo insights para desenvolvimentos futuros em raciocínio visual latente. Nosso modelo, dados e código estão disponíveis em https://github.com/NOVAglow646/Monet.

English

"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.

Monet: Raciocínio no Espaço Visual Latente Além de Imagens e Linguagem

Monet: Reasoning in Latent Visual Space Beyond Images and Language

Resumo

Support