Pensare con la Bozza: Decompressione Ottica tramite Ricostruzione Logica

Abstract

I modelli linguistici multimodali di grandi dimensioni esistenti hanno ottenuto una percezione visiva ad alta fedeltà e una generazione visiva esplorativa. Tuttavia, persiste un paradosso di precisione nei compiti di ragionamento complesso: i sistemi di percezione ottica trascrivono simboli senza catturare la topologia logica, mentre i modelli generativi basati su pixel producono artefatti visivi privi di esattezza matematica. Per colmare questa lacuna, proponiamo di riconcettualizzare il ragionamento su input visivi come decompressione ottica – il processo di ricostruzione di strutture logiche latenti da token visivi compressi. Guidati dall'assioma che l'Analisi è Ragionamento, introduciamo Pensare con la Bozza (Thinking with Drafting - TwD), che utilizza un linguaggio di dominio specifico (DSL) minimalista come rappresentazione intermedia di ancoraggio. A differenza degli approcci standard che allucinano risposte direttamente, TwD costringe il modello a tradurre il proprio modello mentale in codice eseguibile, producendo prove visive deterministiche per l'auto-verifica. Per validare ciò, presentiamo VisAlg, un benchmark di algebra visiva. Gli esperimenti dimostrano che TwD funge da impalcatura cognitiva superiore. Il nostro lavoro stabilisce un sistema a ciclo chiuso in cui la generazione visiva agisce non come output creativo ma come verificatore logico, offrendo un percorso generalizzabile per il ragionamento visivo.

English

Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.

Pensare con la Bozza: Decompressione Ottica tramite Ricostruzione Logica

Thinking with Drafting: Optical Decompression via Logical Reconstruction

Abstract

Support