Optisch redeneren: beelden heroverwegen als een expressief redeneermedium voorbij tekst

Samenvatting

Keten-van-Gedachten (CoT) verbetert de prestaties van Grote Taalmodellen (LLM's) en is uitgebreid naar Multimodale Grote Taalmodellen (MLLM's). Recenter werk gaat verder van tekstgebaseerd multimodaal redeneren naar interleaved-modale redenering, waarbij tussenstappen zowel tekstuele redeneringen als visueel bewijs kunnen omvatten. In dit werk stellen we een gedurfder en ambitieuzer idee voor: kunnen afbeeldingen alleen dienen als het redeneermiddel voor zowel taal- als multimodale taken? Om dit te onderzoeken introduceren we optisch redeneren, dat afbeeldingen behandelt als een zelfstandig redeneermiddel. We concretiseren dit concept met twee varianten: typografisch gebaseerd optisch redeneren, dat visuele lay-outs optimaliseert voor compacte weergave van redeneringen, en grafisch gebaseerd optisch redeneren, dat tekst en grafische elementen combineert tot gestructureerde visuele redeneringen. Bij benchmarks voor wiskundig, wetenschappelijk en interleaved-modal redeneren kan optisch redeneren traditioneel tekstredeneren evenaren of zelfs overtreffen, terwijl het het aantal redeneertokens gemiddeld met 28,57% vermindert bij taaltaken en met 16% bij multimodale taken, wat resulteert in 1,96 keer de tokenefficiëntie van tekstredeneren. Deze resultaten tonen aan dat afbeeldingen effectief en efficiënt redeneringen kunnen coderen, terwijl ze een uniform visueel canvas voor redeneren bieden.

English

Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multimodal Large Language Models (MLLMs). More recent work further moves from text-based multimodal reasoning toward interleaved-modal reasoning, where intermediate steps can incorporate both textual rationales and visual evidence. In this work, we propose a bolder and more ambitious idea: could images alone serve as the reasoning medium for both language and multimodal tasks? To explore this, we propose optical reasoning, which treats images as a standalone reasoning medium. We instantiate this concept with two variants: typographic-based optical reasoning, which optimizes visual layouts for compact rationale rendering, and graphical-based optical reasoning, which composes text and graphical elements into structured visual rationales. Across mathematical, scientific, and interleaved-modal reasoning benchmarks, optical reasoning can match or even exceed traditional text reasoning while reducing reasoning tokens by an average of 28.57% on language tasks and 16% on multimodal tasks, achieving 1.96 times the token efficiency of text reasoning. These results show that images can effectively and efficiently encode rationales while providing a unified visual canvas for reasoning.