ChatPaper.aiChatPaper

LightOnOCR: 1B-параметрическая end-to-end мультиязычная модель компьютерного зрения для передовых технологий оптического распознавания текста

LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

January 20, 2026
Авторы: Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin
cs.AI

Аннотация

Мы представляем LightOnOCR-2-1B — эндо-энд модель для обработки визуальной и языковой информации с 1 миллиардом параметров, которая преобразует изображения документов (например, PDF) в чистый, естественно упорядоченный текст без использования хрупких OCR-конвейеров. Обученная на крупномасштабной, высококачественной дистилляционной смеси с широким охватом сканов, французских документов и научных PDF-файлов, модель LightOnOCR-2 достигает наилучших результатов на тестовом наборе OlmOCR-Bench, будучи при этом в 9 раз меньше и значительно быстрее предыдущих наиболее производительных моделей. Мы также расширяем формат вывода для прогнозирования нормализованных ограничивающих рамок для встроенных изображений, вводя локализацию на этапе предварительного обучения с помощью стратегии возобновления и дорабатывая её с помощью RLVR на основе вознаграждений, вычисляемых по метрике IoU. Наконец, мы повышаем устойчивость модели за счёт усреднения контрольных точек и слияния с помощью task arithmetic. Мы публикуем контрольные точки модели под лицензией Apache 2.0, а также открыто выпускаем набор данных и оценочный тест LightOnOCR-bbox-bench под соответствующими лицензиями.
English
We present LightOnOCR-2-1B, a 1B-parameter end-to-end multilingual vision--language model that converts document images (e.g., PDFs) into clean, naturally ordered text without brittle OCR pipelines. Trained on a large-scale, high-quality distillation mix with strong coverage of scans, French documents, and scientific PDFs, LightOnOCR-2 achieves state-of-the-art results on OlmOCR-Bench while being 9times smaller and substantially faster than prior best-performing models. We further extend the output format to predict normalized bounding boxes for embedded images, introducing localization during pretraining via a resume strategy and refining it with RLVR using IoU-based rewards. Finally, we improve robustness with checkpoint averaging and task-arithmetic merging. We release model checkpoints under Apache 2.0, and publicly release the dataset and LightOnOCR-bbox-bench evaluation under their respective licenses.
PDF51January 22, 2026