Render-of-Thought: Het Weergeven van Tekstuele Redeneerketens als Beelden voor Visueel Latent Redeneren

Samenvatting

Chain-of-Thought (CoT)-prompting heeft opmerkelijke successen geboekt in het ontsluiten van de redeneercapaciteiten van Large Language Models (LLM's). Hoewel CoT-prompts het redeneren verbeteren, brengt de uitvoerigheid ervan aanzienlijke rekenkosten met zich mee. Recente onderzoeken richten zich vaak uitsluitend op uitkomstalignering en missen supervisie op het tussenliggende redeneerproces. Deze tekortkomingen bemoeilijken de analyseerbaarheid van de latente redeneerketen. Om deze uitdagingen aan te pakken, introduceren wij Render-of-Thought (RoT), het eerste raamwerk dat de redeneerketen verzelfstandigt door tekstuele stappen in afbeeldingen weer te geven, waardoor de latente redenering expliciet en traceerbaar wordt. Concreet benutten wij de vision-encoders van bestaande Vision Language Models (VLM's) als semantische ankers om de vision-embeddings af te stemmen op de tekstuele ruimte. Dit ontwerp garandeert een plug-and-play-implementatie zonder extra pre-training overhead. Uitgebreide experimenten op wiskundige en logische redeneerbenchmarks tonen aan dat onze methode een 3-4x tokencompressie en substantiële inferentieversnelling bereikt in vergelijking met expliciete CoT. Bovendien handhaaft het competitieve prestaties ten opzichte van andere methoden, wat de haalbaarheid van dit paradigma valideert. Onze code is beschikbaar op https://github.com/TencentBAC/RoT.

English

Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs). Although CoT prompting enhances reasoning, its verbosity imposes substantial computational overhead. Recent works often focus exclusively on outcome alignment and lack supervision on the intermediate reasoning process. These deficiencies obscure the analyzability of the latent reasoning chain. To address these challenges, we introduce Render-of-Thought (RoT), the first framework to reify the reasoning chain by rendering textual steps into images, making the latent rationale explicit and traceable. Specifically, we leverage the vision encoders of existing Vision Language Models (VLMs) as semantic anchors to align the vision embeddings with the textual space. This design ensures plug-and-play implementation without incurring additional pre-training overhead. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that our method achieves 3-4x token compression and substantial inference acceleration compared to explicit CoT. Furthermore, it maintains competitive performance against other methods, validating the feasibility of this paradigm. Our code is available at https://github.com/TencentBAC/RoT

Render-of-Thought: Het Weergeven van Tekstuele Redeneerketens als Beelden voor Visueel Latent Redeneren

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Samenvatting

Support