LightOnOCR: 최첨단 OCR을 위한 10억 파라미터 엔드투엔드 다국어 비전-언어 모델
LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR
January 20, 2026
저자: Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin
cs.AI
초록
LightOnOCR-2-1B는 깨지기 쉬운 OCR 파이프라인 없이 문서 이미지(예: PDF)를 깔끔하고 자연스러운 순서의 텍스트로 변환하는 10억 파라미터 규모의 엔드투엔드 다국어 비전-언어 모델입니다. 스캔본, 프랑스어 문서, 과학 논문 PDF를 광범위하게 포함한 대규모 고품질 지식 증류 데이터로 학습된 LightOnOCR-2는 OlmOCR-Bench에서 최고 성능을 달성했으며, 기존 최고 성능 모델 대비 9배 더 작고 상당히 빠릅니다. 또한 출력 형식을 확장하여 삽입된 이미지의 정규화된 바운딩 박스를 예측하며, 재개 전략을 통해 사전 학습 단계에서 위치 인식 기능을 도입하고 IoU 기반 보상을 사용한 RLVR로 이를 정교화했습니다. 마지막으로 체크포인트 평균화와 작업 산술 병합을 통해 강건성을 개선했습니다. Apache 2.0 라이선스 하에 모델 체크포인트를 공개하며, 해당 라이선스에 따라 데이터셋과 LightOnOCR-bbox-bench 평가 도구도 공개합니다.
English
We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.