LightOnOCR: Een 1B end-to-end meertalig visie-taalmodel voor state-of-the-art OCR
LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR
January 20, 2026
Auteurs: Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin
cs.AI
Samenvatting
Wij presenteren LightOnOCR-2-1B, een end-to-end meertalig visie-taalmodel met 1B parameters dat documentafbeeldingen (zoals PDF's) omzet in schone, natuurlijk geordende tekst zonder breekbare OCR-pipelines. Getraind op een grootschalige, hoogwaardige distillatiemix met een sterke dekking van scans, Franse documenten en wetenschappelijke PDF's, behaalt LightOnOCR-2 state-of-the-art resultaten op OlmOCR-Bench, terwijl het 9 keer kleiner en aanzienlijk sneller is dan de eerder best presterende modellen. We breiden het uitvoerformaat verder uit om genormaliseerde begrenzingsvakken voor ingebedde afbeeldingen te voorspellen, waarbij we lokalisatie introduceren tijdens de voorafgaande training via een 'resume'-strategie en deze verfijnen met RLVR op basis van IoU-beloningen. Ten slotte verbeteren we de robuustheid met checkpoint-gemiddelden en taak-rekenkundige fusie. We geven de modelcheckpoints vrij onder Apache 2.0, en geven de dataset en de LightOnOCR-bbox-bench evaluatie publiekelijk vrij onder hun respectievelijke licenties.
English
We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.