ChatPaper.aiChatPaper

olmOCR 2: Einheitstest Belohnungen für Dokumenten-OCR

olmOCR 2: Unit Test Rewards for Document OCR

October 22, 2025
papers.authors: Jake Poznanski, Luca Soldaini, Kyle Lo
cs.AI

papers.abstract

Wir präsentieren olmOCR 2, das neueste Mitglied unserer Familie leistungsstarker OCR-Systeme zur Konvertierung digitalisierter Druckdokumente, wie PDFs, in sauberen, natürlich geordneten Klartext. olmOCR 2 wird durch olmOCR-2-7B-1025 angetrieben, ein spezialisiertes, 7B großes Vision-Language-Modell (VLM), das mittels Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) trainiert wurde, wobei unsere Belohnungen aus einer Vielzahl von binären Unit-Tests bestehen. Um die Erstellung von Unit-Tests zu skalieren, entwickelten wir eine Pipeline zur Generierung synthetischer Dokumente mit vielfältigen und anspruchsvollen Layouts, bekanntem HTML-Quellcode als Grundwahrheit und extrahierten Testfällen. Wir zeigen, dass das RL-Training auf diesen Testfällen zu state-of-the-art-Leistungen auf olmOCR-Bench, unserem englischsprachigen OCR-Benchmark, führt, mit den größten Verbesserungen bei der Konvertierung mathematischer Formeln, der Tabellenanalyse und der Verarbeitung mehrspaltiger Layouts im Vergleich zu früheren Versionen. Wir veröffentlichen unser Modell, die Daten und den Code unter permissiven Open-Source-Lizenzen.
English
We present olmOCR 2, the latest in our family of powerful OCR systems for converting digitized print documents, like PDFs, into clean, naturally ordered plain text. olmOCR 2 is powered by olmOCR-2-7B-1025, a specialized, 7B vision language model (VLM) trained using reinforcement learning with verifiable rewards (RLVR), where our rewards are a diverse set of binary unit tests. To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases. We show that RL training on these test cases results in state-of-the-art performance on olmOCR-Bench, our English-language OCR benchmark, with the largest improvements in math formula conversion, table parsing, and multi-column layouts compared to previous versions. We release our model, data and code under permissive open licenses.
PDF52October 23, 2025