ChatPaper.aiChatPaper

Размышляя с помощью черновика: оптическая декомпрессия через логическую реконструкцию

Thinking with Drafting: Optical Decompression via Logical Reconstruction

February 12, 2026
Авторы: Jingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan
cs.AI

Аннотация

Современные мультимодальные большие языковые модели достигли высокоточной визуальной перцепции и исследовательской визуальной генерации. Однако в сложных задачах логического вывода сохраняется парадокс точности: оптические системы восприятия транскрибируют символы без захвата логической топологии, тогда как пиксельные генеративные модели производят визуальные артефакты, лишённые математической точности. Для преодоления этого разрыва мы предлагаем переосмыслить рассуждение над визуальными данными как оптическую декомпрессию — процесс восстановления скрытых логических структур из сжатых визуальных токенов. Руководствуясь аксиомой «Синтаксический анализ есть рассуждение», мы представляем метод «Мышление через черновик» (TwD), использующий минималистичный предметно-ориентированный язык (DSL) в качестве промежуточного представления для заземления. В отличие от стандартных подходов, которые напрямую генерируют ответы, TwD принуждает модель формулировать свою ментальную модель в виде исполняемого кода, создавая детерминированные визуальные доказательства для самопроверки. Для валидации метода мы представляем бенчмарк VisAlg для визуальной алгебры. Эксперименты демонстрируют, что TwD служит эффективным когнитивным каркасом. Наша работа создаёт замкнутую систему, где визуальная генерация выступает не как творческий вывод, а как логический верификатор, предлагая обобщаемый путь для визуального reasoning.
English
Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.
PDF272February 14, 2026