Penser avec l'esquisse : décompression optique par reconstruction logique
Thinking with Drafting: Optical Decompression via Logical Reconstruction
February 12, 2026
papers.authors: Jingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan
cs.AI
papers.abstract
Les modèles linguistiques multimodaux existants ont atteint une perception visuelle de haute fidélité et une génération visuelle exploratoire. Cependant, un paradoxe de précision persiste dans les tâches de raisonnement complexe : les systèmes de perception optique transcrivent des symboles sans capturer la topologie logique, tandis que les modèles génératifs basés sur les pixels produisent des artefacts visuels manquant de rigueur mathématique. Pour combler cette lacune, nous proposons de reconceptualiser le raisonnement sur les entrées visuelles comme une décompression optique – le processus de reconstruction des structures logiques latentes à partir de jetons visuels compressés. Guidés par l'axiome que l'Analyse Syntaxique est un Raisonnement (Parsing is Reasoning), nous introduisons la Pensée par Esquisse (Thinking with Drafting, TwD), qui utilise un langage dédié minimaliste (Domain-Specific Language, DSL) comme représentation intermédiaire d'ancrage. Contrairement aux approches standard qui hallucinent des réponses directement, TwD contraint le modèle à formaliser son modèle mental en code exécutable, produisant des preuves visuelles déterministes pour l'auto-vérification. Pour valider cela, nous présentons VisAlg, un benchmark d'algèbre visuelle. Les expériences démontrent que TwD sert d'échafaudage cognitif supérieur. Notre travail établit un système en boucle fermée où la génération visuelle agit non pas comme une sortie créative mais comme un vérificateur logique, offrant une voie généralisable pour le raisonnement visuel.
English
Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.