Моне: Рассуждения в латентном визуальном пространстве за пределами изображений и языка
Monet: Reasoning in Latent Visual Space Beyond Images and Language
November 26, 2025
Авторы: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang
cs.AI
Аннотация
"Мышление с помощью изображений" стало эффективной парадигмой для развития визуального мышления, выходя за рамки текстовых цепочек рассуждений за счет включения визуальных свидетельств в промежуточные шаги. Однако существующие методы не достигают человеческого уровня абстрактного визуального мышления, поскольку их гибкость фундаментально ограничена внешними инструментами. В данной работе мы представляем Monet — фреймворк для обучения, который позволяет мультимодальным большим языковым моделям (MLLM) рассуждать непосредственно в латентном визуальном пространстве, генерируя непрерывные эмбеддинги, выполняющие роль промежуточных визуальных мыслей. Мы выявили две ключевые проблемы при обучении MLLM латентному визуальному рассуждению: высокие вычислительные затраты на согласование с латентным зрением и недостаточный контроль за латентными эмбеддингами, и решаем их с помощью трехэтапного конвейера supervised fine-tuning (SFT) на основе дистилляции. Мы также обнаружили ограничение применения GRPO к латентному рассуждению: оно в основном улучшает текстовое, а не латентное рассуждение. Чтобы преодолеть это, мы предлагаем VLPO (Visual-latent Policy Optimization) — метод обучения с подкреплением, который явно включает латентные эмбеддинги в обновления политик через градиенты. Для поддержки SFT мы создали Monet-SFT-125K — высококачественный чередующийся текст-изображение датасет CoT, содержащий 125K CoT из реальных мировых данных, графиков, OCR и геометрии. Наша модель Monet-7B демонстрирует стабильный прогресс в бенчмарках восприятия и рассуждений реального мира и проявляет сильную обобщающую способность на сложных задачах абстрактного визуального мышления вне распределения. Мы также эмпирически анализируем роль каждого компонента обучения и обсуждаем наши ранние неудачные попытки, предоставляя insights для будущего развития визуального латентного рассуждения. Наша модель, данные и код доступны по адресу https://github.com/NOVAglow646/Monet.
English
"Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.