MinerU-Diffusion: 拡散デコードによる逆レンダリングとしての文書OCRの再考MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding
光学文字認識(OCR)技術は、行単位の文字転写から構造化文書解析へと進化し、レイアウト・表・数式を含む長文シーケンスの復元が求められるようになっている。近年の視覚言語モデルの進展にもかかわらず、既存システムの多くは自己回帰的なデコーディングに依存しており、長文書処理では逐次的な遅延が生じ、誤り伝搬が増幅されるという課題がある。本研究では、文書OCRを逆レンダリングの観点から再考し、左から右への因果的生成はタスクの本質的な性質ではなく、シリアライゼーションによる人為的制約であると論じる。この知見に基づき、我々はMinerU-Diffusionを提案する。これは視覚的条件付けのもとで自己回帰的逐次デコーディングを並列拡散デノイジングに置き換える、統一された拡散ベースのフレームワークである。MinerU-Diffusionはブロック単位の拡散デコーダーと不確実性駆動のカリキュラム学習戦略を採用し、安定した訓練と効率的な長文推論を実現する。大規模実験により、MinerU-Diffusionが自己回帰ベースラインと比較して最大3.2倍の高速デコーディングを達成しつつ、頑健性を一貫して向上させることを実証した。提案するSemantic Shuffleベンチマークによる評価では、言語事前情報への依存度低減と強力な視覚的OCR能力がさらに確認されている。