Render-of-Thought: Representando Cadeias de Raciocínio Textual como Imagens para Raciocínio Visual Latente

Resumo

A técnica de Chain-of-Thought (CoT) tem alcançado sucesso notável em desbloquear as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). Embora o prompting CoT aprimore o raciocínio, sua verbosidade impõe uma sobrecarga computacional substancial. Trabalhos recentes frequentemente focam-se exclusivamente no alinhamento do resultado final e carecem de supervisão sobre o processo de raciocínio intermediário. Essas deficiências obscurecem a analisabilidade da cadeia de raciocínio latente. Para enfrentar esses desafios, introduzimos o Render-of-Thought (RoT), o primeiro framework que reifica a cadeia de raciocínio, renderizando passos textuais em imagens, tornando a lógica subjacente explícita e rastreável. Especificamente, aproveitamos os codificadores de visão de Modelos de Linguagem Visual (VLMs) existentes como âncoras semânticas para alinhar os *embeddings* visuais com o espaço textual. Este design garante uma implementação *plug-and-play* sem incorrer em custos adicionais de pré-treinamento. Experimentos extensivos em *benchmarks* de raciocínio matemático e lógico demonstram que nosso método alcança uma compressão de 3 a 4 vezes no número de *tokens* e uma aceleração substancial na inferência em comparação com o CoT explícito. Além disso, mantém um desempenho competitivo em relação a outros métodos, validando a viabilidade deste paradigma. Nosso código está disponível em https://github.com/TencentBAC/RoT.

English

Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs). Although CoT prompting enhances reasoning, its verbosity imposes substantial computational overhead. Recent works often focus exclusively on outcome alignment and lack supervision on the intermediate reasoning process. These deficiencies obscure the analyzability of the latent reasoning chain. To address these challenges, we introduce Render-of-Thought (RoT), the first framework to reify the reasoning chain by rendering textual steps into images, making the latent rationale explicit and traceable. Specifically, we leverage the vision encoders of existing Vision Language Models (VLMs) as semantic anchors to align the vision embeddings with the textual space. This design ensures plug-and-play implementation without incurring additional pre-training overhead. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that our method achieves 3-4x token compression and substantial inference acceleration compared to explicit CoT. Furthermore, it maintains competitive performance against other methods, validating the feasibility of this paradigm. Our code is available at https://github.com/TencentBAC/RoT

Render-of-Thought: Representando Cadeias de Raciocínio Textual como Imagens para Raciocínio Visual Latente

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Resumo

Support