Denken met Ontwerpen: Optische Decompressie via Logische Reconstructie

Samenvatting

Bestaande multimodale grote taalmodellen hebben hoogwaardige visuele waarneming en verkennende visuele generatie bereikt. Er blijft echter een precisieparadox bestaan in complexe redeneertaken: optische waarnemingssystemen transcriberen symbolen zonder de logische topologie vast te leggen, terwijl op pixels gebaseerde generatieve modellen visuele artefacten produceren die wiskundige exactheid missen. Om deze kloof te overbruggen, stellen wij voor dat redeneren over visuele invoer wordt herconceptualiseerd als optische decompressie – het proces van het reconstrueren van latente logische structuren uit gecomprimeerde visuele tokens. Geleid door het axioma dat Parseren Gelijkstaat aan Redeneren, introduceren wij Denken met Ontwerpen (TwD), dat een minimalistische domeinspecifieke taal (DSL) gebruikt als een grondige tussenrepresentatie. In tegenstelling tot standaardbenaderingen die antwoorden direct hallucineren, dwingt TwD het model om zijn mentale model te ontwerpen in uitvoerbare code, waarbij deterministische visuele bewijzen worden gegenereerd voor zelfverificatie. Om dit te valideren, presenteren wij VisAlg, een visuele algebra-benchmark. Experimenten tonen aan dat TwD dient als superieur cognitief steigersysteem. Ons werk vestigt een gesloten systeem waarbij visuele generatie niet fungeert als creatieve output maar als logische verificator, wat een generaliseerbaar pad biedt voor visueel redeneren.

English

Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.

Denken met Ontwerpen: Optische Decompressie via Logische Reconstructie

Thinking with Drafting: Optical Decompression via Logical Reconstruction

Samenvatting

Support