Pensar con el Borrador: Descompresión Óptica mediante Reconstrucción Lógica
Thinking with Drafting: Optical Decompression via Logical Reconstruction
February 12, 2026
Autores: Jingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan
cs.AI
Resumen
Los modelos lingüísticos multimodales existentes han logrado una percepción visual de alta fidelidad y una generación visual exploratoria. Sin embargo, persiste una paradoja de precisión en tareas de razonamiento complejo: los sistemas de percepción óptica transcriben símbolos sin capturar la topología lógica, mientras que los modelos generativos basados en píxeles producen artefactos visuales carentes de exactitud matemática. Para cerrar esta brecha, proponemos reconceptualizar el razonamiento sobre entradas visuales como una descompresión óptica: el proceso de reconstruir estructuras lógicas latentes a partir de tokens visuales comprimidos. Guiados por el axioma de que Analizar es Razonar, presentamos Pensar con Borradores (TwD), que utiliza un Lenguaje Específico de Dominio (DSL) minimalista como representación intermedia de anclaje. A diferencia de los enfoques estándar que alucinan respuestas directamente, TwD obliga al modelo a plasmar su modelo mental en código ejecutable, generando pruebas visuales deterministas para la autoverificación. Para validar esto, presentamos VisAlg, un benchmark de álgebra visual. Los experimentos demuestran que TwD funciona como un andamiaje cognitivo superior. Nuestro trabajo establece un sistema de circuito cerrado donde la generación visual actúa no como una salida creativa, sino como un verificador lógico, ofreciendo una ruta generalizable para el razonamiento visual.
English
Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.