Pensando com o Rascunho: Descompressão Óptica via Reconstrução Lógica

Resumo

Os modelos multimodais de grande dimensão existentes alcançaram percepção visual de alta fidelidade e geração visual exploratória. No entanto, persiste um paradoxo de precisão em tarefas complexas de raciocínio: os sistemas de percepção ótica transcrevem símbolos sem capturar a topologia lógica, enquanto os modelos generativos baseados em pixels produzem artefactos visuais carentes de exatidão matemática. Para colmatar esta lacuna, propomos que o raciocínio sobre inputs visuais seja reconceptualizado como descompressão ótica - o processo de reconstruir estruturas lógicas latentes a partir de tokens visuais comprimidos. Guiados pelo axioma de que Analisar é Raciocinar, introduzimos o Pensamento com Rascunho (TwD), que utiliza uma Linguagem Específica de Domínio (DSL) minimalista como representação intermédia de base. Ao contrário das abordagens padrão que alucinam respostas diretamente, o TwD força o modelo a esboçar o seu modelo mental em código executável, produzindo provas visuais determinísticas para auto-verificação. Para validar isto, apresentamos o VisAlg, um benchmark de álgebra visual. Experiências demonstram que o TwD funciona como um suporte cognitivo superior. O nosso trabalho estabelece um sistema de ciclo fechado onde a geração visual atua não como uma saída criativa, mas como um verificador lógico, oferecendo um caminho generalizável para o raciocínio visual.

English

Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.