ChatPaper.aiChatPaper

Pensando com o Rascunho: Descompressão Óptica via Reconstrução Lógica

Thinking with Drafting: Optical Decompression via Logical Reconstruction

February 12, 2026
Autores: Jingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan
cs.AI

Resumo

Os modelos multimodais de grande dimensão existentes alcançaram percepção visual de alta fidelidade e geração visual exploratória. No entanto, persiste um paradoxo de precisão em tarefas complexas de raciocínio: os sistemas de percepção ótica transcrevem símbolos sem capturar a topologia lógica, enquanto os modelos generativos baseados em pixels produzem artefactos visuais carentes de exatidão matemática. Para colmatar esta lacuna, propomos que o raciocínio sobre inputs visuais seja reconceptualizado como descompressão ótica - o processo de reconstruir estruturas lógicas latentes a partir de tokens visuais comprimidos. Guiados pelo axioma de que Analisar é Raciocinar, introduzimos o Pensamento com Rascunho (TwD), que utiliza uma Linguagem Específica de Domínio (DSL) minimalista como representação intermédia de base. Ao contrário das abordagens padrão que alucinam respostas diretamente, o TwD força o modelo a esboçar o seu modelo mental em código executável, produzindo provas visuais determinísticas para auto-verificação. Para validar isto, apresentamos o VisAlg, um benchmark de álgebra visual. Experiências demonstram que o TwD funciona como um suporte cognitivo superior. O nosso trabalho estabelece um sistema de ciclo fechado onde a geração visual atua não como uma saída criativa, mas como um verificador lógico, oferecendo um caminho generalizável para o raciocínio visual.
English
Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.
PDF344March 17, 2026