ChatPaper.aiChatPaper

LightOnOCR: Ein 1B-Parameter End-to-End Mehrsprachiges Vision-Sprache-Modell für State-of-the-Art Texterkennung

LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

January 20, 2026
papers.authors: Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin
cs.AI

papers.abstract

Wir stellen LightOnOCR-2-1B vor, ein end-to-end multilinguales Vision-Language-Modell mit 1 Milliarde Parametern, das Dokumentenbilder (z.B. PDFs) direkt in sauberen, natürlich geordneten Text umwandelt, ohne auf fragile OCR-Pipelines angewiesen zu sein. LightOnOCR-2 wurde auf einem groß angelegten, hochwertigen Distillations-Datensatz trainiert, der Scans, französische Dokumente und wissenschaftliche PDFs umfassend abdeckt, und erzielt state-of-the-art Ergebnisse auf OlmOCR-Bench, ist dabei jedoch 9-mal kleiner und deutlich schneller als die bisher leistungsstärksten Modelle. Wir erweitern das Ausgabeformat außerdem um die Vorhersage normalisierter Bounding-Boxen für eingebettete Bilder, führen Lokalisierung während des Pre-Trainings über eine Resume-Strategie ein und verfeinern sie mit RLVR unter Verwendung von IoU-basierten Belohnungen. Schließlich verbessern wir die Robustheit durch Checkpoint-Averaging und Task-Arithmetic-Merging. Wir veröffentlichen die Modell-Checkpoints unter der Apache-2.0-Lizenz und stellen den Datensatz sowie LightOnOCR-bbox-bench unter ihren jeweiligen Lizenzen öffentlich zur Verfügung.
English
We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.
PDF51January 22, 2026