모네: 이미지와 언어를 넘어선 잠재 시각 공간에서의 추론
Monet: Reasoning in Latent Visual Space Beyond Images and Language
November 26, 2025
저자: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang
cs.AI
초록
"이미지를 통한 사고"는 중간 추론 단계에 시각적 증거를 주입함으로써 텍스트만의 사고 연쇄를 넘어 시각적 추론을 발전시키는 효과적인 패러다임으로 부상했습니다. 그러나 기존 방법론은 외부 도구에 의해 유연성이 근본적으로 제한되어 인간과 유사한 추상적 시각 사고에는 미치지 못합니다. 본 연구에서는 다중모드 대규모 언어 모델(MLLM)이 중간 시각 사고로 기능하는 연속 임베딩을 생성하여 잠재 시각 공간 내에서 직접 추론할 수 있도록 하는 훈련 프레임워크인 Monet을 소개합니다. 우리는 잠재 시각 추론을 위한 MLLM 훈련에서 두 가지 핵심 과제, 즉 잠재-시각 정렬의 높은 계산 비용과 잠재 임베딩에 대한 불충분한 지도를 확인하고, 이를 3단계 증류 기반 지도 미세 조정(SFT) 파이프라인으로 해결합니다. 또한 GRPO를 잠재 추론에 적용할 때의 한계, 즉 주로 텍스트 기반 추론만을 향상시키고 잠재 추론은 향상시키지 못함을 밝혔습니다. 이를 극복하기 위해 우리는 잠재 임베딩을 정책 경사도 업데이트에 명시적으로 통합하는 강화 학습 방법인 VLPO(시각-잠재 정책 최적화)를 제안합니다. SFT를 지원하기 위해 125K개의 실제 세계, 차트, OCR, 기하학 CoT를 포함한 고품질 텍스트-이미지 연계 CoT 데이터셋인 Monet-SFT-125K를 구축했습니다. 우리의 모델인 Monet-7B는 실제 세계 인식 및 추론 벤치마크에서 일관된 성능 향상을 보였으며, 어려운 추상적 시각 추론 과제에서 강력한 분포 외 일반화 능력을 나타냈습니다. 또한 각 훈련 구성 요소의 역할을 실증적으로 분석하고 초기 실패 시도에 대해 논의하여 향후 시각 잠재 추론 발전을 위한 통찰을 제공합니다. 우리의 모델, 데이터 및 코드는 https://github.com/NOVAglow646/Monet에서 이용 가능합니다.
English
"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.