Razonamiento óptico: Repensar las imágenes como un medio expresivo de razonamiento más allá del texto

Resumen

La Cadena de Pensamiento (CoT) mejora el rendimiento de los Modelos de Lenguaje Grandes (LLMs) y se ha extendido a los Modelos de Lenguaje Grandes Multimodales (MLLMs). Trabajos más recientes avanzan desde el razonamiento multimodal basado en texto hacia el razonamiento intercalado entre modalidades, donde los pasos intermedios pueden incorporar tanto fundamentos textuales como evidencia visual. En este trabajo, proponemos una idea más audaz y ambiciosa: ¿podrían las imágenes por sí solas servir como medio de razonamiento tanto para tareas lingüísticas como multimodales? Para explorar esto, proponemos el razonamiento óptico, que trata las imágenes como un medio de razonamiento independiente. Concretamos este concepto con dos variantes: el razonamiento óptico basado en tipografía, que optimiza los diseños visuales para representaciones compactas de fundamentos, y el razonamiento óptico basado en gráficos, que compone texto y elementos gráficos en fundamentos visuales estructurados. En benchmarks de razonamiento matemático, científico e intercalado entre modalidades, el razonamiento óptico puede igualar o incluso superar al razonamiento textual tradicional, reduciendo los tokens de razonamiento en promedio un 28,57 % en tareas lingüísticas y un 16 % en tareas multimodales, logrando una eficiencia de tokens 1,96 veces mayor que el razonamiento textual. Estos resultados muestran que las imágenes pueden codificar fundamentos de manera efectiva y eficiente, al mismo tiempo que proporcionan un lienzo visual unificado para el razonamiento.

English

Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multimodal Large Language Models (MLLMs). More recent work further moves from text-based multimodal reasoning toward interleaved-modal reasoning, where intermediate steps can incorporate both textual rationales and visual evidence. In this work, we propose a bolder and more ambitious idea: could images alone serve as the reasoning medium for both language and multimodal tasks? To explore this, we propose optical reasoning, which treats images as a standalone reasoning medium. We instantiate this concept with two variants: typographic-based optical reasoning, which optimizes visual layouts for compact rationale rendering, and graphical-based optical reasoning, which composes text and graphical elements into structured visual rationales. Across mathematical, scientific, and interleaved-modal reasoning benchmarks, optical reasoning can match or even exceed traditional text reasoning while reducing reasoning tokens by an average of 28.57% on language tasks and 16% on multimodal tasks, achieving 1.96 times the token efficiency of text reasoning. These results show that images can effectively and efficiently encode rationales while providing a unified visual canvas for reasoning.