Rendu de la Pensée : Conversion des Chaînes de Raisonnement Textuelles en Images pour le Raisonnement Visuel Latent

Résumé

Le prompt Chain-of-Thought (Chaîne de Pensée, CoT) a remporté un succès remarquable pour débloquer les capacités de raisonnement des Grands Modèles de Langage (LLM). Bien que le prompt CoT améliore le raisonnement, sa verbosité impose une surcharge computationnelle substantielle. Les travaux récents se concentrent souvent exclusivement sur l'alignement des résultats et manquent de supervision sur le processus de raisonnement intermédiaire. Ces lacunes obscurcissent l'analysabilité de la chaîne de raisonnement latente. Pour relever ces défis, nous présentons Render-of-Thought (Rendu de la Pensée, RoT), le premier cadre qui réifie la chaîne de raisonnement en rendant les étapes textuelles sous forme d'images, rendant ainsi le raisonnement latent explicite et traçable. Concrètement, nous utilisons les encodeurs visuels de modèles vision-langage (VLM) existants comme ancres sémantiques pour aligner les embeddings visuels avec l'espace textuel. Cette conception garantit une mise en œuvre plug-and-play sans entraîner de surcharge de pré-entraînement supplémentaire. Des expériences approfondies sur des benchmarks de raisonnement mathématique et logique démontrent que notre méthode atteint une compression de 3 à 4 fois le nombre de tokens et une accélération substantielle de l'inférence par rapport au CoT explicite. De plus, elle maintient des performances compétitives par rapport aux autres méthodes, validant la faisabilité de ce paradigme. Notre code est disponible à l'adresse https://github.com/TencentBAC/RoT.

English

Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs). Although CoT prompting enhances reasoning, its verbosity imposes substantial computational overhead. Recent works often focus exclusively on outcome alignment and lack supervision on the intermediate reasoning process. These deficiencies obscure the analyzability of the latent reasoning chain. To address these challenges, we introduce Render-of-Thought (RoT), the first framework to reify the reasoning chain by rendering textual steps into images, making the latent rationale explicit and traceable. Specifically, we leverage the vision encoders of existing Vision Language Models (VLMs) as semantic anchors to align the vision embeddings with the textual space. This design ensures plug-and-play implementation without incurring additional pre-training overhead. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that our method achieves 3-4x token compression and substantial inference acceleration compared to explicit CoT. Furthermore, it maintains competitive performance against other methods, validating the feasibility of this paradigm. Our code is available at https://github.com/TencentBAC/RoT

Rendu de la Pensée : Conversion des Chaînes de Raisonnement Textuelles en Images pour le Raisonnement Visuel Latent

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Résumé

Support