MinerU-Diffusion: Het herzien van document-OCR als inverse rendering via diffusie-decodering

Samenvatting

Optical Character Recognition (OCR) is geëvolueerd van transcriptie op regelniveau naar het parseren van gestructureerde documenten, wat vereist dat modellen lange sequenties kunnen reconstrueren met lay-out, tabellen en formules. Ondanks recente vooruitgang in vision-language modellen, zijn de meeste bestaande systemen afhankelijk van autoregressieve decodering, wat sequentiële latentie introduceert en foutpropagatie in lange documenten versterkt. In dit werk benaderen we document-OCR opnieuw vanuit een inverse rendering-perspectief, waarbij we stellen dat causale generatie van links naar rechts een artefact van serialisatie is, in plaats van een intrinsieke eigenschap van de taak. Gemotiveerd door dit inzicht presenteren we MinerU-Diffusion, een unified diffusion-gebaseerd raamwerk dat autoregressieve sequentiële decodering vervangt door parallelle diffusion-denoising onder visuele conditionering. MinerU-Diffusion maakt gebruik van een block-wise diffusion-decoder en een onzekerheidsgedreven curriculum learning-strategie om stabiele training en efficiënte inferentie van lange sequenties mogelijk te maken. Uitgebreide experimenten tonen aan dat MinerU-Diffusion consistent de robuustheid verbetert, terwijl het tot 3,2 keer sneller decodeert in vergelijking met autoregressieve baseline-methoden. Evaluaties op de voorgestelde Semantic Shuffle-benchmark bevestigen verder de verminderde afhankelijkheid van linguïstische prior kennis en de sterkere visuele OCR-capaciteit.

English

Optical character recognition (OCR) has evolved from line-level transcription to structured document parsing, requiring models to recover long-form sequences containing layout, tables, and formulas. Despite recent advances in vision-language models, most existing systems rely on autoregressive decoding, which introduces sequential latency and amplifies error propagation in long documents. In this work, we revisit document OCR from an inverse rendering perspective, arguing that left-to-right causal generation is an artifact of serialization rather than an intrinsic property of the task. Motivated by this insight, we propose MinerU-Diffusion, a unified diffusion-based framework that replaces autoregressive sequential decoding with parallel diffusion denoising under visual conditioning. MinerU-Diffusion employs a block-wise diffusion decoder and an uncertainty-driven curriculum learning strategy to enable stable training and efficient long-sequence inference. Extensive experiments demonstrate that MinerU-Diffusion consistently improves robustness while achieving up to 3.2x faster decoding compared to autoregressive baselines. Evaluations on the proposed Semantic Shuffle benchmark further confirm its reduced dependence on linguistic priors and stronger visual OCR capability.

MinerU-Diffusion: Het herzien van document-OCR als inverse rendering via diffusie-decodering

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Samenvatting

Support