Неограниченная работа OCR

Аннотация

В последнее время сквозные модели OCR, ярким примером которых является DeepSeek OCR, снова привлекли внимание к этой области. Широко распространено мнение, что использование большой языковой модели (LLM) в качестве декодера позволяет модели задействовать априорное распределение языка, что приводит к улучшению производительности OCR. Однако обратная сторона также очевидна: по мере увеличения длины выходной последовательности накопленный KV-кэш повышает потребление памяти и постепенно замедляет генерацию. Это резко контрастирует с поведением человека, у которого эффективность при выполнении длительных задач копирования не снижается. В данном техническом отчете мы представляем Unlimited OCR — модель, разработанную для имитации рабочей памяти человека при разборе. Взяв DeepSeek OCR в качестве базовой модели, мы заменяем все слои внимания в декодере на предложенное нами скользящее оконное внимание с эталоном (Reference Sliding Window Attention, R-SWA), которое снижает вычислительные затраты на внимание, поддерживая при этом постоянный KV-кэш на протяжении всего процесса декодирования. Благодаря сочетанию высокой степени сжатия энкодера DeepSeek OCR с нашей конструкцией постоянного KV-кэша, Unlimited OCR может расшифровывать десятки страниц документов за один прямой проход при стандартной максимальной длине в 32K. Более того, R-SWA является универсальным механизмом внимания для разбора — помимо OCR, он столь же применим к таким задачам, как ASR, перевод и т.д. Код и веса модели доступны по адресу http://github.com/baidu/Unlimited-OCR.

English

Recently, end-to-end OCR models, exemplified by DeepSeek OCR, have once again thrust OCR into the spotlight. A widely held view is that employing a large language model (LLM) as the decoder allows the model to leverage the prior distribution of language, leading to improved OCR performance. However, the downside is equally evident: as the output sequence lengthens, the accumulated KV cache drives up memory consumption and progressively slows down generation. This stands in stark contrast to humans, who exhibit no such decline in efficiency during long-horizon copying tasks. In this technical report, we propose Unlimited OCR, a model designed to emulate human parsing working memory. Taking DeepSeek OCR as the baseline, we replace all attention layers in the decoder with our proposed Reference Sliding Window Attention (R-SWA), which reduces attention computation costs while maintaining a constant KV cache throughout the entire decoding process. By combining the high compression rate of DeepSeek OCR's encoder with our constant KV cache design, Unlimited OCR can transcribe dozens of pages of documents in a single forward pass under a standard maximum length of 32K. More importantly, R-SWA is a general-purpose parsing attention mechanism - beyond OCR, it is equally applicable to tasks such as ASR, translation, etc. Codes and model weights are publicly available at http://github.com/baidu/Unlimited-OCR.