LightOnOCR: Un modello visione-linguaggio multilingue end-to-end da 1B per OCR allo stato dell'arte

Abstract

Presentiamo LightOnOCR-2-1B, un modello visione-linguaggio multilingue end-to-end da 1 miliardo di parametri che converte immagini di documenti (ad esempio, PDF) in testo pulito e ordinato naturalmente, senza ricorrere a fragili pipeline OCR. Addestrato su un mix di distillazione su larga scala e di alta qualità, con una forte copertura di scansioni, documenti francesi e PDF scientifici, LightOnOCR-2 raggiunge risultati allo stato dell'arte su OlmOCR-Bench pur essendo 9 volte più piccolo e sostanzialmente più veloce dei modelli precedentemente più performanti. Estendiamo ulteriormente il formato di output per prevedere bounding box normalizzate per le immagini incorporate, introducendo la localizzazione durante il pre-addestramento tramite una strategia di ripresa e raffinandola con RLVR utilizzando ricompense basate sull'IoU. Infine, miglioriamo la robustezza con la media dei checkpoint e il merging aritmetico dei task. Rilasciamo i checkpoint del modello sotto licenza Apache 2.0 e pubblichiamo pubblicamente il dataset e la valutazione LightOnOCR-bbox-bench sotto le rispettive licenze.

English

We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.

LightOnOCR: Un modello visione-linguaggio multilingue end-to-end da 1B per OCR allo stato dell'arte

LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

Abstract

Support