LightOnOCR : un modèle vision-langage multilingue de bout en bout de 1B pour une OCR à la pointe de la technologie
LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR
January 20, 2026
papers.authors: Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin
cs.AI
papers.abstract
Nous présentons LightOnOCR-2-1B, un modèle multimodal de vision et langage multilingue de bout en bout, doté de 1 milliard de paramètres, qui convertit des images de documents (par exemple, des PDF) en texte propre et naturellement ordonné sans recourir à des pipelines de reconnaissance optique de caractères (OCR) fragiles. Entraîné sur un mélange de distillation à grande échelle et de haute qualité offrant une couverture robuste des documents scannés, des documents français et des PDF scientifiques, LightOnOCR-2 atteint des résultats de pointe sur OlmOCR-Bench tout en étant 9 fois plus petit et substantiellement plus rapide que les modèles précédents les plus performants. Nous étendons en outre le format de sortie pour prédire des boîtes englobantes normalisées pour les images intégrées, en introduisant la localisation lors du pré-entraînement via une stratégie de reprise et en l'affinant avec RLVR à l'aide de récompenses basées sur l'IoU. Enfin, nous améliorons la robustesse par moyenne de points de contrôle et fusion par arithmétique des tâches. Nous publions les points de contrôle du modèle sous licence Apache 2.0, et rendons publics l'ensemble de données ainsi que l'évaluation LightOnOCR-bbox-bench sous leurs licences respectives.
English
We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.