ChatPaper.aiChatPaper

MinerU-Diffusion: 확산 디코딩을 통한 역 렌더링으로 문서 OCR 재고하기

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

March 23, 2026
저자: Hejun Dong, Junbo Niu, Bin Wang, Weijun Zeng, Wentao Zhang, Conghui He
cs.AI

초록

광학 문자 인식(OCR) 기술은 행 단위 전사에서 구조화된 문서 구문 분석으로 진화하며, 레이아웃, 표, 수식을 포함하는 장문 시퀀스 복원을 위한 모델 요구사항이 증가하고 있습니다. 최근 시각-언어 모델의 발전에도 불구하고, 대부분의 기존 시스템은 자기회귀 디코딩에 의존하여 장문 문서에서 순차적 지연을 초래하고 오류 전파를 증폭시킵니다. 본 연구에서는 역렌더링 관점에서 문서 OCR을 재조명하며, 좌측에서 우측으로의 인과적 생성이 작업의 본질적 특성이 아닌 직렬화의 부산물임을 주장합니다. 이러한 통찰을 바탕으로, 우리는 MinerU-Diffusion을 제안합니다. 이는 시각 조건화 하에서 자기회귀적 순차 디코딩을 병렬 확산 디노이징으로 대체하는 통합 확산 기반 프레임워크입니다. MinerU-Diffusion은 블록 단위 확산 디코더와 불확실성 주도 교욱 학습 전략을 활용하여 안정적인 훈련과 효율적인 장문 추론을 가능하게 합니다. 광범위한 실험을 통해 MinerU-Diffusion이 자기회귀 기준선 대비 최대 3.2배 빠른 디코딩 속도를 달성하면서도 강건성을 지속적으로 향상시킴을 입증했습니다. 제안된 Semantic Shuffle 벤치마크 평가를 통해서는 언어적 사전 지식에 대한 의존도 감소와 더욱 강력한 시각 OCR 능력이 추가로 확인되었습니다.
English
Optical character recognition (OCR) has evolved from line-level transcription to structured document parsing, requiring models to recover long-form sequences containing layout, tables, and formulas. Despite recent advances in vision-language models, most existing systems rely on autoregressive decoding, which introduces sequential latency and amplifies error propagation in long documents. In this work, we revisit document OCR from an inverse rendering perspective, arguing that left-to-right causal generation is an artifact of serialization rather than an intrinsic property of the task. Motivated by this insight, we propose MinerU-Diffusion, a unified diffusion-based framework that replaces autoregressive sequential decoding with parallel diffusion denoising under visual conditioning. MinerU-Diffusion employs a block-wise diffusion decoder and an uncertainty-driven curriculum learning strategy to enable stable training and efficient long-sequence inference. Extensive experiments demonstrate that MinerU-Diffusion consistently improves robustness while achieving up to 3.2x faster decoding compared to autoregressive baselines. Evaluations on the proposed Semantic Shuffle benchmark further confirm its reduced dependence on linguistic priors and stronger visual OCR capability.
PDF1104March 26, 2026