olmOCR 2: 문서 OCR을 위한 단위 테스트 보상

초록

우리는 PDF와 같은 디지털화된 인쇄 문서를 깔끔하고 자연스럽게 정렬된 일반 텍스트로 변환하기 위한 강력한 OCR 시스템의 최신 버전인 olmOCR 2를 소개합니다. olmOCR 2는 olmOCR-2-7B-1025로 구동되며, 이는 검증 가능한 보상(RLVR)을 사용한 강화 학습으로 훈련된 전문화된 70억 파라미터 시각 언어 모델(VLM)입니다. 여기서 우리의 보상은 다양한 이진 단위 테스트 세트로 구성됩니다. 단위 테스트 생성을 확장하기 위해, 우리는 다양한 도전적인 레이아웃, 알려진 HTML 소스 코드, 그리고 추출된 테스트 케이스를 포함한 합성 문서를 생성하는 파이프라인을 개발했습니다. 이러한 테스트 케이스에 대한 RL 훈련이 olmOCR-Bench(우리의 영어 OCR 벤치마크)에서 최첨단 성능을 달성하며, 특히 수식 변환, 테이블 파싱, 다중 열 레이아웃에서 이전 버전 대비 가장 큰 개선을 보임을 입증합니다. 우리는 이 모델, 데이터 및 코드를 허용적 오픈 라이선스 하에 공개합니다.

English

We present olmOCR 2, the latest in our family of powerful OCR systems for converting digitized print documents, like PDFs, into clean, naturally ordered plain text. olmOCR 2 is powered by olmOCR-2-7B-1025, a specialized, 7B vision language model (VLM) trained using reinforcement learning with verifiable rewards (RLVR), where our rewards are a diverse set of binary unit tests. To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases. We show that RL training on these test cases results in state-of-the-art performance on olmOCR-Bench, our English-language OCR benchmark, with the largest improvements in math formula conversion, table parsing, and multi-column layouts compared to previous versions. We release our model, data and code under permissive open licenses.