olmOCR 2: ドキュメントOCRのためのユニットテスト報酬
olmOCR 2: Unit Test Rewards for Document OCR
October 22, 2025
著者: Jake Poznanski, Luca Soldaini, Kyle Lo
cs.AI
要旨
私たちは、PDFなどのデジタル化された印刷文書をクリーンで自然な順序のプレーンテキストに変換する強力なOCRシステムの最新版であるolmOCR 2を紹介します。olmOCR 2は、検証可能な報酬を用いた強化学習(RLVR)でトレーニングされた、7Bの専門的な視覚言語モデル(VLM)であるolmOCR-2-7B-1025を搭載しています。ここでの報酬は、多様なバイナリユニットテストのセットです。ユニットテストの作成をスケールアップするために、多様で挑戦的なレイアウトを持つ合成文書を生成し、既知のHTMLソースコードと抽出されたテストケースを提供するパイプラインを開発しました。これらのテストケースでのRLトレーニングにより、olmOCR-Bench(私たちの英語OCRベンチマーク)において、以前のバージョンと比較して数式変換、表解析、マルチカラムレイアウトで最大の改善を示す最先端のパフォーマンスを実現しました。私たちは、モデル、データ、コードを寛容なオープンライセンスの下で公開します。
English
We present olmOCR 2, the latest in our family of powerful OCR systems for
converting digitized print documents, like PDFs, into clean, naturally ordered
plain text. olmOCR 2 is powered by olmOCR-2-7B-1025, a specialized, 7B vision
language model (VLM) trained using reinforcement learning with verifiable
rewards (RLVR), where our rewards are a diverse set of binary unit tests. To
scale unit test creation, we develop a pipeline for generating synthetic
documents with diverse and challenging layouts, known ground-truth HTML source
code, and extracted test cases. We show that RL training on these test cases
results in state-of-the-art performance on olmOCR-Bench, our English-language
OCR benchmark, with the largest improvements in math formula conversion, table
parsing, and multi-column layouts compared to previous versions. We release our
model, data and code under permissive open licenses.