Imaginación Mental de Máquinas: Potenciar el Razonamiento Multimodal con Tokens Visuales Latentes
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
June 20, 2025
Autores: Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, Chuang Gan
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) destacan en la comprensión multimodal, pero su decodificación basada únicamente en texto los obliga a verbalizar el razonamiento visual, lo que limita su rendimiento en tareas que requieren imaginación visual. Intentos recientes entrenan a los VLMs para generar imágenes explícitas, pero el extenso preentrenamiento en generación de imágenes a menudo perjudica su capacidad de razonamiento. Inspirados por la forma en que los humanos razonan con imágenes mentales—la construcción y manipulación interna de señales visuales—investigamos si los VLMs pueden razonar a través de trayectorias multimodales intercaladas sin producir imágenes explícitas. Con este fin, presentamos un marco de Imagen Mental de Máquina, denominado Mirage, que aumenta la decodificación de los VLMs con tokens visuales latentes junto con texto ordinario. Concretamente, cuando el modelo decide "pensar visualmente", reformula sus estados ocultos como tokens siguientes, continuando así una trayectoria multimodal sin generar imágenes a nivel de píxeles. Comenzamos supervisando los tokens latentes mediante destilación a partir de incrustaciones de imágenes de referencia, luego cambiamos a supervisión basada únicamente en texto para alinear estrechamente la trayectoria latente con el objetivo de la tarea. Una etapa posterior de aprendizaje por refuerzo mejora aún más la capacidad de razonamiento multimodal. Experimentos en diversos puntos de referencia demuestran que Mirage desbloquea un razonamiento multimodal más sólido sin la generación explícita de imágenes.
English
Vision-language models (VLMs) excel at multimodal understanding, yet their
text-only decoding forces them to verbalize visual reasoning, limiting
performance on tasks that demand visual imagination. Recent attempts train VLMs
to render explicit images, but the heavy image-generation pre-training often
hinders the reasoning ability. Inspired by the way humans reason with mental
imagery-the internal construction and manipulation of visual cues-we
investigate whether VLMs can reason through interleaved multimodal trajectories
without producing explicit images. To this end, we present a Machine Mental
Imagery framework, dubbed as Mirage, which augments VLM decoding with latent
visual tokens alongside ordinary text. Concretely, whenever the model chooses
to ``think visually'', it recasts its hidden states as next tokens, thereby
continuing a multimodal trajectory without generating pixel-level images. Begin
by supervising the latent tokens through distillation from ground-truth image
embeddings, we then switch to text-only supervision to make the latent
trajectory align tightly with the task objective. A subsequent reinforcement
learning stage further enhances the multimodal reasoning capability.
Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger
multimodal reasoning without explicit image generation.