ChatPaper.aiChatPaper

Denken mit dem Entwurf: Optische Dekompression durch logische Rekonstruktion

Thinking with Drafting: Optical Decompression via Logical Reconstruction

February 12, 2026
papers.authors: Jingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan
cs.AI

papers.abstract

Bestehende multimodale große Sprachmodelle haben hochpräzise visuelle Wahrnehmung und explorative Bildgenerierung erreicht. Dennoch besteht in komplexen Reasoning-Aufgaben ein Präzisionsparadoxon: Optische Wahrnehmungssysteme transkribieren Symbole ohne Erfassung logischer Topologien, während pixelbasierte Generative Modelle visuelle Artefakte ohne mathematische Exaktheit erzeugen. Um diese Lücke zu schließen, schlagen wir vor, Reasoning über visuelle Eingaben als optische Dekompression neu zu konzipieren – den Prozess der Rekonstruktion latenter logischer Strukturen aus komprimierten visuellen Tokens. Geleitet vom Axiom, dass Parsing Reasoning ist, führen wir Thinking with Drafting (TwD) ein, das eine minimalistische domainspezifische Sprache (DSL) als verankerte Zwischendarstellung nutzt. Im Gegensatz zu Standardansätzen, die Antworten direkt halluzinieren, zwingt TwD das Modell, sein mentales Modell in ausführbaren Code zu übersetzen und deterministische visuelle Beweise zur Selbstverifikation zu erzeugen. Zur Validierung präsentieren wir VisAlg, einen Benchmark für visuelle Algebra. Experimente zeigen, dass TwD als überlegene kognitive Stütze dient. Unsere Arbeit etabliert ein geschlossenes System, in dem visuelle Generierung nicht als kreative Ausgabe, sondern als logischer Verifikator agiert und einen verallgemeinerbaren Pfad für visuelles Reasoning bietet.
English
Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.
PDF272February 14, 2026