ChatPaper.aiChatPaper

LightOnOCR: Un modelo de visión y lenguaje multilingüe de 1B de parámetros de extremo a extremo para OCR de última generación

LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

January 20, 2026
Autores: Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin
cs.AI

Resumen

Presentamos LightOnOCR-2-1B, un modelo de visión y lenguaje multilingüe de extremo a extremo con 1B de parámetros que convierte imágenes de documentos (por ejemplo, archivos PDF) en texto limpio y ordenado de forma natural, sin necesidad de frágiles pipelines de OCR. Entrenado con una mezcla de destilación a gran escala y de alta calidad que abarca ampliamente escaneos, documentos en francés y PDFs científicos, LightOnOCR-2 logra resultados de vanguardia en OlmOCR-Bench, siendo 9 veces más pequeño y sustancialmente más rápido que los mejores modelos anteriores. Además, extendemos el formato de salida para predecir cuadros delimitadores normalizados para imágenes incrustadas, introduciendo localización durante el preentrenamiento mediante una estrategia de reanudación y refinándola con RLVR utilizando recompensas basadas en IoU. Finalmente, mejoramos la robustez mediante promediado de checkpoints y fusión por aritmética de tareas. Publicamos los checkpoints del modelo bajo licencia Apache 2.0, y liberamos públicamente el conjunto de datos y la evaluación LightOnOCR-bbox-bench bajo sus respectivas licencias.
English
We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.
PDF51January 22, 2026