ChatPaper.aiChatPaper

드래프트와 함께 사고하기: 논리적 재구성을 통한 광학적 압축 해제

Thinking with Drafting: Optical Decompression via Logical Reconstruction

February 12, 2026
저자: Jingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan
cs.AI

초록

기존 다중모달 대규모 언어 모델은 높은 정확도의 시각 인식과 탐색적 시각 생성을 달성했습니다. 그러나 복잡한 추론 과제에서는 정밀성 패러독스가 지속되고 있습니다: 광학 인식 시스템은 논리적 토폴로지를 포착하지 못한 채 기호를 전사하는 반면, 픽셀 기반 생성 모델은 수학적 정확성이 부족한 시각적 아티팩트를 생성합니다. 이러한 격차를 해소하기 위해 우리는 시각 입력에 대한 추론을 광학적 압축 해제—압축된 시각 토큰으로부터 잠재적 논리 구조를 재구성하는 과정—로 재개념화할 것을 제안합니다. '파싱이 곧 추론이다'라는 공리에 기반하여, 우리는 최소주의 도메인 특화 언어(DSL)를 기반 중간 표현으로 활용하는 Thinking with Drafting(TwD)을 소개합니다. 답변을 직접 생성하는 표준 접근법과 달리, TwD는 모델이 자신의 멘탈 모델을 실행 가능한 코드로 기초 설계하게 하여 결정론적 시각적 증명을 생성함으로써 자기 검증을 가능하게 합니다. 이를 검증하기 위해 우리는 시각 대수 벤치마크인 VisAlg를 제시합니다. 실험 결과, TwD가 우수한 인지 비계 역할을 함을 입증했습니다. 우리의 연구는 시각 생성을 창의적 출력이 아닌 논리적 검증기로 작동하는 폐쇄 루프 시스템을 구축하여 시각 추론을 위한 일반화 가능한 경로를 제시합니다.
English
Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.
PDF272February 14, 2026