Unbegrenzte OCR-Funktionen

Zusammenfassung

In jüngster Zeit haben End-to-End-OCR-Modelle, allen voran DeepSeek OCR, die optische Zeichenerkennung erneut in den Fokus gerückt. Eine weit verbreitete Ansicht besagt, dass der Einsatz eines großen Sprachmodells (LLM) als Dekoder dem Modell ermöglicht, die vorherige Sprachverteilung zu nutzen, was zu einer verbesserten OCR-Leistung führt. Der Nachteil ist jedoch ebenso offensichtlich: Mit zunehmender Länge der Ausgabesequenz steigt der kumulierte KV-Cache den Speicherverbrauch an und verlangsamt zunehmend die Generierung. Dies steht in deutlichem Gegensatz zum Menschen, der bei langen Kopieraufgaben keine derartige Effizienzabnahme zeigt. In diesem technischen Bericht stellen wir Unlimited OCR vor, ein Modell, das die menschliche Arbeitsgedächtnis beim Parsen nachbilden soll. Aufbauend auf DeepSeek OCR als Basis ersetzen wir alle Aufmerksamkeitsschichten im Dekoder durch unsere vorgeschlagene Reference Sliding Window Attention (R-SWA), die die Berechnungskosten für die Aufmerksamkeit reduziert und gleichzeitig einen konstanten KV-Cache während des gesamten Dekodierungsprozesses aufrechterhält. Durch die Kombination der hohen Kompressionsrate des Encoders von DeepSeek OCR mit unserem konstanten KV-Cache-Design kann Unlimited OCR Dutzende von Dokumentenseiten in einem einzigen Durchlauf unter einer standardmäßigen maximalen Länge von 32K transkribieren. Noch wichtiger ist, dass R-SWA ein allgemeiner Parsing-Aufmerksamkeitsmechanismus ist – über die OCR hinaus ist er gleichermaßen auf Aufgaben wie ASR, Übersetzung usw. anwendbar. Codes und Modellgewichte sind öffentlich unter http://github.com/baidu/Unlimited-OCR verfügbar.

English

Recently, end-to-end OCR models, exemplified by DeepSeek OCR, have once again thrust OCR into the spotlight. A widely held view is that employing a large language model (LLM) as the decoder allows the model to leverage the prior distribution of language, leading to improved OCR performance. However, the downside is equally evident: as the output sequence lengthens, the accumulated KV cache drives up memory consumption and progressively slows down generation. This stands in stark contrast to humans, who exhibit no such decline in efficiency during long-horizon copying tasks. In this technical report, we propose Unlimited OCR, a model designed to emulate human parsing working memory. Taking DeepSeek OCR as the baseline, we replace all attention layers in the decoder with our proposed Reference Sliding Window Attention (R-SWA), which reduces attention computation costs while maintaining a constant KV cache throughout the entire decoding process. By combining the high compression rate of DeepSeek OCR's encoder with our constant KV cache design, Unlimited OCR can transcribe dozens of pages of documents in a single forward pass under a standard maximum length of 32K. More importantly, R-SWA is a general-purpose parsing attention mechanism - beyond OCR, it is equally applicable to tasks such as ASR, translation, etc. Codes and model weights are publicly available at http://github.com/baidu/Unlimited-OCR.