Render-of-Thought: Trasformare la Catena di Ragionamento Testuale in Immagini per il Ragionamento Visivo Latente

Abstract

Il prompting a Catena di Pensiero (CoT) ha ottenuto un notevole successo nello sbloccare le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM). Sebbene il prompting CoT potenzi il ragionamento, la sua verbosità impone un sovraccarico computazionale sostanziale. I lavori recenti spesso si concentrano esclusivamente sull'allineamento dei risultati e mancano di supervisione sul processo di ragionamento intermedio. Queste carenze oscurano l'analizzabilità della catena di ragionamento latente. Per affrontare queste sfide, introduciamo il Render-of-Thought (RoT), il primo framework che reifica la catena di ragionamento rendendo i passaggi testuali in immagini, rendendo esplicita e tracciabile la logica latente. Nello specifico, sfruttiamo gli encoder visivi dei Modelli Linguaggio-Visione (VLM) esistenti come ancore semantiche per allineare gli embedding visivi con lo spazio testuale. Questo design garantisce un'implementazione plug-and-play senza comportare ulteriori sovraccarichi di pre-addestramento. Esperimenti estesi su benchmark di ragionamento matematico e logico dimostrano che il nostro metodo raggiunge una compressione dei token di 3-4x e una sostanziale accelerazione dell'inferenza rispetto al CoT esplicito. Inoltre, mantiene prestazioni competitive rispetto ad altri metodi, convalidando la fattibilità di questo paradigma. Il nostro codice è disponibile all'indirizzo https://github.com/TencentBAC/RoT

English

Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs). Although CoT prompting enhances reasoning, its verbosity imposes substantial computational overhead. Recent works often focus exclusively on outcome alignment and lack supervision on the intermediate reasoning process. These deficiencies obscure the analyzability of the latent reasoning chain. To address these challenges, we introduce Render-of-Thought (RoT), the first framework to reify the reasoning chain by rendering textual steps into images, making the latent rationale explicit and traceable. Specifically, we leverage the vision encoders of existing Vision Language Models (VLMs) as semantic anchors to align the vision embeddings with the textual space. This design ensures plug-and-play implementation without incurring additional pre-training overhead. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that our method achieves 3-4x token compression and substantial inference acceleration compared to explicit CoT. Furthermore, it maintains competitive performance against other methods, validating the feasibility of this paradigm. Our code is available at https://github.com/TencentBAC/RoT

Render-of-Thought: Trasformare la Catena di Ragionamento Testuale in Immagini per il Ragionamento Visivo Latente

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Abstract

Support