olmOCR 2: Einheitstest Belohnungen für Dokumenten-OCR
olmOCR 2: Unit Test Rewards for Document OCR
October 22, 2025
papers.authors: Jake Poznanski, Luca Soldaini, Kyle Lo
cs.AI
papers.abstract
Wir präsentieren olmOCR 2, das neueste Mitglied unserer Familie leistungsstarker OCR-Systeme zur Konvertierung digitalisierter Druckdokumente, wie PDFs, in sauberen, natürlich geordneten Klartext. olmOCR 2 wird durch olmOCR-2-7B-1025 angetrieben, ein spezialisiertes, 7B großes Vision-Language-Modell (VLM), das mittels Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) trainiert wurde, wobei unsere Belohnungen aus einer Vielzahl von binären Unit-Tests bestehen. Um die Erstellung von Unit-Tests zu skalieren, entwickelten wir eine Pipeline zur Generierung synthetischer Dokumente mit vielfältigen und anspruchsvollen Layouts, bekanntem HTML-Quellcode als Grundwahrheit und extrahierten Testfällen. Wir zeigen, dass das RL-Training auf diesen Testfällen zu state-of-the-art-Leistungen auf olmOCR-Bench, unserem englischsprachigen OCR-Benchmark, führt, mit den größten Verbesserungen bei der Konvertierung mathematischer Formeln, der Tabellenanalyse und der Verarbeitung mehrspaltiger Layouts im Vergleich zu früheren Versionen. Wir veröffentlichen unser Modell, die Daten und den Code unter permissiven Open-Source-Lizenzen.
English
We present olmOCR 2, the latest in our family of powerful OCR systems for
converting digitized print documents, like PDFs, into clean, naturally ordered
plain text. olmOCR 2 is powered by olmOCR-2-7B-1025, a specialized, 7B vision
language model (VLM) trained using reinforcement learning with verifiable
rewards (RLVR), where our rewards are a diverse set of binary unit tests. To
scale unit test creation, we develop a pipeline for generating synthetic
documents with diverse and challenging layouts, known ground-truth HTML source
code, and extracted test cases. We show that RL training on these test cases
results in state-of-the-art performance on olmOCR-Bench, our English-language
OCR benchmark, with the largest improvements in math formula conversion, table
parsing, and multi-column layouts compared to previous versions. We release our
model, data and code under permissive open licenses.