ChatPaper.aiChatPaper

Render-of-Thought: Visuelle Darstellung textueller Denkketten als Bilder für visuelles latentes Schließen

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

January 21, 2026
papers.authors: Yifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei
cs.AI

papers.abstract

Chain-of-Thought (CoT) Prompting hat bemerkenswerte Erfolge dabei erzielt, die Reasoning-Fähigkeiten von Large Language Models (LLMs) zu erschließen. Obwohl CoT Prompting das logische Schließen verbessert, verursacht sein ausufernder Textumfang erheblichen Rechenaufwand. Neuere Arbeiten konzentrieren sich oft ausschließlich auf die Ergebnisausrichtung und vernachlässigen die Überwachung des intermediären Reasoning-Prozesses. Diese Defizite verschleiern die Analysierbarkeit der latenten Reasoning-Kette. Um diese Herausforderungen zu adressieren, stellen wir Render-of-Thought (RoT) vor, den ersten Framework, der die Reasoning-Kette verdinglicht, indem textuelle Schritte in Bilder gerendert werden, wodurch die latente Begründung explizit und nachvollziehbar wird. Konkret nutzen wir die Vision-Encoder existierender Vision Language Models (VLMs) als semantische Anker, um die Vision-Einbettungen mit dem textuellen Raum abzugleichen. Dieses Design gewährleistet eine Plug-and-Play-Implementierung ohne zusätzlichen Pre-Training-Overhead. Umfangreiche Experimente mit Benchmarks für mathematisches und logisches Reasoning zeigen, dass unsere Methode im Vergleich zu explizitem CoT eine 3- bis 4-fache Token-Kompression und eine erhebliche Inferenz-Beschleunigung erreicht. Darüber hinaus hält sie mit anderen Methoden in puncto Leistung wettbewerbsfähig mit, was die Machbarkeit dieses Paradigmas validiert. Unser Code ist verfügbar unter https://github.com/TencentBAC/RoT.
English
Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs). Although CoT prompting enhances reasoning, its verbosity imposes substantial computational overhead. Recent works often focus exclusively on outcome alignment and lack supervision on the intermediate reasoning process. These deficiencies obscure the analyzability of the latent reasoning chain. To address these challenges, we introduce Render-of-Thought (RoT), the first framework to reify the reasoning chain by rendering textual steps into images, making the latent rationale explicit and traceable. Specifically, we leverage the vision encoders of existing Vision Language Models (VLMs) as semantic anchors to align the vision embeddings with the textual space. This design ensures plug-and-play implementation without incurring additional pre-training overhead. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that our method achieves 3-4x token compression and substantial inference acceleration compared to explicit CoT. Furthermore, it maintains competitive performance against other methods, validating the feasibility of this paradigm. Our code is available at https://github.com/TencentBAC/RoT
PDF140January 23, 2026