Optisches Denken: Die Neubetrachtung von Bildern als ausdrucksstarkes Medium des Schließens jenseits von Text

Zusammenfassung

Chain-of-Thought (CoT) verbessert die Leistung Großer Sprachmodelle (LLMs) und wurde auf Multimodale Große Sprachmodelle (MLLMs) ausgeweitet. Neuere Arbeiten gehen weiter vom textbasierten multimodalen Schließen zum verschränkt-modalen Schließen über, bei dem Zwischenschritte sowohl textuelle Begründungen als auch visuelle Belege einbeziehen können. In dieser Arbeit schlagen wir eine kühnere und ambitioniertere Idee vor: Könnten Bilder allein als Schlussfolgerungsmedium sowohl für Sprach- als auch für multimodale Aufgaben dienen? Um dies zu untersuchen, schlagen wir das optische Schließen vor, das Bilder als eigenständiges Schlussfolgerungsmedium behandelt. Wir setzen dieses Konzept mit zwei Varianten um: dem typografiebasierten optischen Schließen, das visuelle Layouts für kompakte Begründungsdarstellungen optimiert, und dem grafikbasierten optischen Schließen, das Text und grafische Elemente zu strukturierten visuellen Begründungen zusammenfügt. In Benchmarks für mathematisches, wissenschaftliches und verschränkt-modales Schließen kann das optische Schließen mit dem traditionellen textbasierten Schließen mithalten oder es sogar übertreffen, während es die Anzahl der Reasoning-Token bei Sprachaufgaben um durchschnittlich 28,57 % und bei multimodalen Aufgaben um 16 % reduziert und damit eine 1,96-fache Token-Effizienz im Vergleich zum textbasierten Schließen erreicht. Diese Ergebnisse zeigen, dass Bilder Begründungen effektiv und effizient kodieren können und gleichzeitig eine einheitliche visuelle Grundlage für das Schließen bieten.

English

Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multimodal Large Language Models (MLLMs). More recent work further moves from text-based multimodal reasoning toward interleaved-modal reasoning, where intermediate steps can incorporate both textual rationales and visual evidence. In this work, we propose a bolder and more ambitious idea: could images alone serve as the reasoning medium for both language and multimodal tasks? To explore this, we propose optical reasoning, which treats images as a standalone reasoning medium. We instantiate this concept with two variants: typographic-based optical reasoning, which optimizes visual layouts for compact rationale rendering, and graphical-based optical reasoning, which composes text and graphical elements into structured visual rationales. Across mathematical, scientific, and interleaved-modal reasoning benchmarks, optical reasoning can match or even exceed traditional text reasoning while reducing reasoning tokens by an average of 28.57% on language tasks and 16% on multimodal tasks, achieving 1.96 times the token efficiency of text reasoning. These results show that images can effectively and efficiently encode rationales while providing a unified visual canvas for reasoning.