Render-of-Thought: Representación de Cadenas de Razonamiento Textual como Imágenes para el Razonamiento Visual Latente
Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning
January 21, 2026
Autores: Yifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei
cs.AI
Resumen
El prompting de Cadena de Pensamiento (CoT) ha logrado un notable éxito para desbloquear las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLM). Aunque CoT mejora el razonamiento, su verbosidad impone una sobrecarga computacional sustancial. Trabajos recientes a menudo se centran exclusivamente en la alineación de resultados y carecen de supervisión sobre el proceso de razonamiento intermedio. Estas deficiencias oscurecen la analizabilidad de la cadena de razonamiento latente. Para abordar estos desafíos, presentamos Renderizado del Pensamiento (RoT), el primer marco que materializa la cadena de razonamiento renderizando los pasos textuales en imágenes, haciendo explícita y rastreable la lógica subyacente. Específicamente, aprovechamos los codificadores visuales de los Modelos de Lenguaje Visual (VLM) existentes como anclajes semánticos para alinear las incrustaciones visuales con el espacio textual. Este diseño garantiza una implementación plug-and-play sin incurrir en sobrecarga adicional de pre-entrenamiento. Experimentos exhaustivos en benchmarks de razonamiento matemático y lógico demuestran que nuestro método logra una compresión de tokens 3-4 veces mayor y una aceleración sustancial de la inferencia en comparación con CoT explícito. Además, mantiene un rendimiento competitivo frente a otros métodos, validando la viabilidad de este paradigma. Nuestro código está disponible en https://github.com/TencentBAC/RoT.
English
Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs). Although CoT prompting enhances reasoning, its verbosity imposes substantial computational overhead. Recent works often focus exclusively on outcome alignment and lack supervision on the intermediate reasoning process. These deficiencies obscure the analyzability of the latent reasoning chain. To address these challenges, we introduce Render-of-Thought (RoT), the first framework to reify the reasoning chain by rendering textual steps into images, making the latent rationale explicit and traceable. Specifically, we leverage the vision encoders of existing Vision Language Models (VLMs) as semantic anchors to align the vision embeddings with the textual space. This design ensures plug-and-play implementation without incurring additional pre-training overhead. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that our method achieves 3-4x token compression and substantial inference acceleration compared to explicit CoT. Furthermore, it maintains competitive performance against other methods, validating the feasibility of this paradigm. Our code is available at https://github.com/TencentBAC/RoT