Raisonnement optique : repenser les images comme un médium de raisonnement expressif au-delà du texte

Résumé

Le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) améliore les performances des grands modèles de langage (Large Language Models, LLMs) et a été étendu aux grands modèles de langage multimodaux (Multimodal Large Language Models, MLLMs). Des travaux plus récents vont plus loin, passant du raisonnement multimodal textuel au raisonnement intermodal (interleaved-modal reasoning), où les étapes intermédiaires peuvent intégrer à la fois des justifications textuelles et des preuves visuelles. Dans ce travail, nous proposons une idée plus audacieuse et ambitieuse : les images seules pourraient-elles servir de support de raisonnement pour les tâches langagières et multimodales ? Pour explorer cela, nous proposons le raisonnement optique (optical reasoning), qui considère les images comme un support de raisonnement autonome. Nous concrétisons ce concept avec deux variantes : le raisonnement optique typographique (typographic-based optical reasoning), qui optimise les mises en page visuelles pour un rendu compact des justifications, et le raisonnement optique graphique (graphical-based optical reasoning), qui compose du texte et des éléments graphiques en justifications visuelles structurées. Sur des benchmarks de raisonnement mathématique, scientifique et intermodal, le raisonnement optique peut égaler, voire dépasser le raisonnement textuel traditionnel, tout en réduisant le nombre de jetons de raisonnement (reasoning tokens) de 28,57 % en moyenne sur les tâches langagières et de 16 % sur les tâches multimodales, atteignant ainsi 1,96 fois l'efficacité en jetons du raisonnement textuel. Ces résultats montrent que les images peuvent coder de manière efficace et efficiente les justifications tout en offrant une toile visuelle unifiée pour le raisonnement.

English

Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multimodal Large Language Models (MLLMs). More recent work further moves from text-based multimodal reasoning toward interleaved-modal reasoning, where intermediate steps can incorporate both textual rationales and visual evidence. In this work, we propose a bolder and more ambitious idea: could images alone serve as the reasoning medium for both language and multimodal tasks? To explore this, we propose optical reasoning, which treats images as a standalone reasoning medium. We instantiate this concept with two variants: typographic-based optical reasoning, which optimizes visual layouts for compact rationale rendering, and graphical-based optical reasoning, which composes text and graphical elements into structured visual rationales. Across mathematical, scientific, and interleaved-modal reasoning benchmarks, optical reasoning can match or even exceed traditional text reasoning while reducing reasoning tokens by an average of 28.57% on language tasks and 16% on multimodal tasks, achieving 1.96 times the token efficiency of text reasoning. These results show that images can effectively and efficiently encode rationales while providing a unified visual canvas for reasoning.