LightOnOCR:最先端OCRのための10億パラメータ多言語エンドツーエンド視覚言語モデル
LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR
January 20, 2026
著者: Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin
cs.AI
要旨
LightOnOCR-2-1Bを紹介する。これは、10億パラメータ規模のエンドツーエンド多言語ビジョン言語モデルであり、文書画像(例:PDF)を脆弱的なOCRパイプラインなしで、整然と自然な順序のテキストに変換する。スキャン資料、フランス語文書、科学技術PDFを広範にカバーする大規模で高品質な蒸留データにより学習されたLightOnOCR-2は、OlmOCR-Benchにおいて従来の最高性能モデルと比較して9倍小さく、大幅に高速でありながら、State-of-the-artの結果を達成する。さらに、出力形式を拡張して埋め込み画像の正規化バウンディングボックスを予測し、resume戦略による事前学習中の位置情報予測の導入と、IoUベースの報酬を用いたRLVRによる精緻化を実現した。最後に、チェックポイント平均化とタスク算術マージによりロバスト性を向上させる。モデルチェックポイントはApache 2.0ライセンスの下で公開し、データセットとLightOnOCR-bbox-bench評価はそれぞれのライセンスの下で公開する。
English
We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.