ChatPaper.aiChatPaper

MinerU-Diffusion: 拡散デコードによる逆レンダリングとしての文書OCRの再考

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

March 23, 2026
著者: Hejun Dong, Junbo Niu, Bin Wang, Weijun Zeng, Wentao Zhang, Conghui He
cs.AI

要旨

光学文字認識(OCR)技術は、行単位の文字転写から構造化文書解析へと進化し、レイアウト・表・数式を含む長文シーケンスの復元が求められるようになっている。近年の視覚言語モデルの進展にもかかわらず、既存システムの多くは自己回帰的なデコーディングに依存しており、長文書処理では逐次的な遅延が生じ、誤り伝搬が増幅されるという課題がある。本研究では、文書OCRを逆レンダリングの観点から再考し、左から右への因果的生成はタスクの本質的な性質ではなく、シリアライゼーションによる人為的制約であると論じる。この知見に基づき、我々はMinerU-Diffusionを提案する。これは視覚的条件付けのもとで自己回帰的逐次デコーディングを並列拡散デノイジングに置き換える、統一された拡散ベースのフレームワークである。MinerU-Diffusionはブロック単位の拡散デコーダーと不確実性駆動のカリキュラム学習戦略を採用し、安定した訓練と効率的な長文推論を実現する。大規模実験により、MinerU-Diffusionが自己回帰ベースラインと比較して最大3.2倍の高速デコーディングを達成しつつ、頑健性を一貫して向上させることを実証した。提案するSemantic Shuffleベンチマークによる評価では、言語事前情報への依存度低減と強力な視覚的OCR能力がさらに確認されている。
English
Optical character recognition (OCR) has evolved from line-level transcription to structured document parsing, requiring models to recover long-form sequences containing layout, tables, and formulas. Despite recent advances in vision-language models, most existing systems rely on autoregressive decoding, which introduces sequential latency and amplifies error propagation in long documents. In this work, we revisit document OCR from an inverse rendering perspective, arguing that left-to-right causal generation is an artifact of serialization rather than an intrinsic property of the task. Motivated by this insight, we propose MinerU-Diffusion, a unified diffusion-based framework that replaces autoregressive sequential decoding with parallel diffusion denoising under visual conditioning. MinerU-Diffusion employs a block-wise diffusion decoder and an uncertainty-driven curriculum learning strategy to enable stable training and efficient long-sequence inference. Extensive experiments demonstrate that MinerU-Diffusion consistently improves robustness while achieving up to 3.2x faster decoding compared to autoregressive baselines. Evaluations on the proposed Semantic Shuffle benchmark further confirm its reduced dependence on linguistic priors and stronger visual OCR capability.
PDF1104March 26, 2026