ChatPaper.aiChatPaper

Render-of-Thought: Визуализация текстовых цепочек рассуждений в виде изображений для скрытого визуального анализа

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

January 21, 2026
Авторы: Yifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei
cs.AI

Аннотация

Метод Chain-of-Thought (CoT) показал выдающиеся успехи в раскрытии способностей больших языковых моделей (LLM) к логическим рассуждениям. Несмотря на то, что prompting по методу CoT улучшает логический вывод, его многословность создает значительные вычислительные затраты. Современные подходы часто сосредоточены исключительно на согласовании итогового результата и не предусматривают контроля за промежуточным процессом рассуждений. Эти недостатки затрудняют анализ скрытой цепи логических умозаключений. Для решения этих проблем мы представляем Render-of-Thought (RoT) — первую систему, которая материализует цепь рассуждений, визуализируя текстовые шаги в виде изображений, делая скрытую логику явной и отслеживаемой. В частности, мы используем визуальные энкодеры существующих Vision Language Models (VLM) в качестве смысловых якорей для согласования визуальных эмбеддингов с текстовым пространством. Такая конструкция обеспечивает возможность реализации по принципу «plug-and-play» без дополнительных затрат на предварительное обучение. Многочисленные эксперименты на эталонных наборах данных по математическим и логическим задачам демонстрируют, что наш метод обеспечивает сжатие в 3–4 раза по количеству токенов и значительное ускорение вывода по сравнению с явным методом CoT. Более того, он сохраняет конкурентоспособную производительность по сравнению с другими методами, что подтверждает жизнеспособность данной парадигмы. Наш код доступен по адресу https://github.com/TencentBAC/RoT.
English
Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs). Although CoT prompting enhances reasoning, its verbosity imposes substantial computational overhead. Recent works often focus exclusively on outcome alignment and lack supervision on the intermediate reasoning process. These deficiencies obscure the analyzability of the latent reasoning chain. To address these challenges, we introduce Render-of-Thought (RoT), the first framework to reify the reasoning chain by rendering textual steps into images, making the latent rationale explicit and traceable. Specifically, we leverage the vision encoders of existing Vision Language Models (VLMs) as semantic anchors to align the vision embeddings with the textual space. This design ensures plug-and-play implementation without incurring additional pre-training overhead. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that our method achieves 3-4x token compression and substantial inference acceleration compared to explicit CoT. Furthermore, it maintains competitive performance against other methods, validating the feasibility of this paradigm. Our code is available at https://github.com/TencentBAC/RoT
PDF140January 23, 2026