ChatPaper.aiChatPaper

GutenOCR: Обоснованный визуально-языковой интерфейс для работы с документами

GutenOCR: A Grounded Vision-Language Front-End for Documents

January 20, 2026
Авторы: Hunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew
cs.AI

Аннотация

GutenOCR представляет собой семейство OCR-интерфейсов с функцией локализации, созданных путем дообучения моделей Qwen2.5-VL-3B и Qwen2.5-VL-7B. Полученные мультимодальные модели единой архитектуры предоставляют возможности распознавания, детекции и привязки текста через унифицированный интерфейс на основе промптов. Обученные на бизнес-документах, научных статьях и синтетических данных локализации, модели поддерживают полностраничное и локальное чтение с ограничивающими рамками на уровне строк и абзацев, а также условные запросы вида «где находится x?». Мы представляем протокол оценки OCR с локализацией и демонстрируем, что GutenOCR-7B более чем вдвое превосходит исходную модель Qwen2.5-VL-7B по комплексному показателю на 10.5 тыс. отложенных бизнес- и научных страниц (0.40 против 0.82). На наборах Fox и OmniDocBench v1.5 наш подход существенно улучшает OCR на уровне регионов и строк, а также полноту детекции текста, но выявляет компромиссы в области линеаризации страниц, OCR с учетом цвета и работы с макетами, насыщенными формулами.
English
GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.
PDF142January 23, 2026