olmOCR 2：文档OCR的单元测试奖励机制

摘要

我们隆重推出olmOCR 2，这是我们家族中最新一代强大的OCR系统，专为将数字化印刷文档（如PDF）转换为整洁、自然排序的纯文本而设计。olmOCR 2的核心动力源自olmOCR-2-7B-1025，这是一个专门训练的7B视觉语言模型（VLM），采用带有可验证奖励的强化学习（RLVR）方法进行训练，其中我们的奖励机制基于一系列多样化的二元单元测试。为了规模化单元测试的创建，我们开发了一套流程，用于生成具有多样性和挑战性布局的合成文档，这些文档包含已知的HTML源代码作为真实标签，并从中提取测试用例。我们证明，基于这些测试用例的强化学习训练，在olmOCR-Bench——我们的英语OCR基准测试中，实现了业界领先的性能，特别是在数学公式转换、表格解析和多栏布局处理方面，相较于前代版本取得了显著提升。我们以宽松的开源许可发布了模型、数据及代码。

English

We present olmOCR 2, the latest in our family of powerful OCR systems for converting digitized print documents, like PDFs, into clean, naturally ordered plain text. olmOCR 2 is powered by olmOCR-2-7B-1025, a specialized, 7B vision language model (VLM) trained using reinforcement learning with verifiable rewards (RLVR), where our rewards are a diverse set of binary unit tests. To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases. We show that RL training on these test cases results in state-of-the-art performance on olmOCR-Bench, our English-language OCR benchmark, with the largest improvements in math formula conversion, table parsing, and multi-column layouts compared to previous versions. We release our model, data and code under permissive open licenses.