LightOnOCR: Um Modelo de Visão e Linguagem Multilíngue de 1B para OCR de Última Geração

Resumo

Apresentamos o LightOnOCR-2-1B, um modelo de visão e linguagem multilingue de ponta a ponta com 1B de parâmetros que converte imagens de documentos (por exemplo, PDFs) em texto limpo e ordenado naturalmente, sem a necessidade de frágeis pipelines de OCR. Treinado numa mistura de destilação em larga escala e de alta qualidade, com forte cobertura de digitalizações, documentos franceses e PDFs científicos, o LightOnOCR-2 atinge resultados de última geração no OlmOCR-Bench, sendo 9 vezes menor e substancialmente mais rápido do que os modelos de melhor desempenho anteriores. Estendemos ainda o formato de saída para prever caixas delimitadoras normalizadas para imagens incorporadas, introduzindo a localização durante o pré-treinamento através de uma estratégia de *resume* e refinando-a com RLVR usando recompensas baseadas em IoU. Finalmente, melhoramos a robustez com a média de *checkpoints* e a fusão por aritmética de tarefas. Disponibilizamos os *checkpoints* do modelo sob a licença Apache 2.0 e disponibilizamos publicamente o conjunto de dados e a avaliação LightOnOCR-bbox-bench sob as suas respetivas licenças.

English

We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.