Monet: 画像と言語を超えた潜在視覚空間における推論
Monet: Reasoning in Latent Visual Space Beyond Images and Language
November 26, 2025
著者: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang
cs.AI
要旨
「画像を用いた思考」は、視覚的推論を進展させる効果的なパラダイムとして登場し、中間推論ステップに視覚的証拠を注入することで、テキストのみの思考の連鎖を超えた広がりを見せています。しかし、既存の手法は外部ツールに根本的に制限されているため、人間のような抽象的な視覚思考には至っていません。本研究では、マルチモーダル大規模言語モデル(MLLM)が中間的な視覚的思考として機能する連続的な埋め込みを生成することで、潜在視覚空間内で直接推論することを可能にする訓練フレームワーク「Monet」を提案します。潜在視覚推論のためのMLLM訓練における核心的な課題として、潜在空間と視覚の整合性における高い計算コストと、潜在埋め込みに対する不十分な監督の2つを特定し、これらを3段階の知識蒸留ベースの教師付きファインチューニング(SFT)パイプラインで解決します。さらに、潜在推論へのGRPO適用の限界、すなわちそれが主にテキストベースの推論を強化し、潜在推論には十分でないことを明らかにします。この問題を克服するため、潜在埋め込みを明示的にポリシー勾配更新に組み込む強化学習手法「VLPO(Visual-latent Policy Optimization)」を提案します。SFTを支援するため、12万5千件の実世界、チャート、OCR、幾何学のCoTを含む高品質なテキスト-画像交互配置型CoTデータセット「Monet-SFT-125K」を構築しました。我々のモデル「Monet-7B」は、実世界の知覚と推論のベンチマークで一貫した性能向上を示し、困難な抽象的視覚推論タスクにおいて強力な分布外汎化性能を発揮します。また、各訓練コンポーネントの役割を実証的に分析し、初期の失敗した試みについても議論し、視覚的潜在推論の将来の発展に向けた知見を提供します。モデル、データ、コードはhttps://github.com/NOVAglow646/Monet で公開されています。
English
"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.