Funcionamiento ilimitado de OCR

Resumen

Recientemente, los modelos OCR de extremo a extremo, ejemplificados por DeepSeek OCR, han vuelto a poner el OCR en el centro de atención. Una opinión ampliamente extendida sostiene que el uso de un modelo de lenguaje grande (LLM) como decodificador permite que el modelo aproveche la distribución previa del lenguaje, mejorando así el rendimiento del OCR. Sin embargo, la desventaja es igualmente evidente: a medida que la secuencia de salida se alarga, la caché KV acumulada incrementa el consumo de memoria y ralentiza progresivamente la generación. Esto contrasta marcadamente con los humanos, quienes no muestran tal declive en eficiencia durante tareas de copia de largo alcance. En este informe técnico, proponemos Unlimited OCR, un modelo diseñado para emular la memoria de trabajo de procesamiento humano. Tomando DeepSeek OCR como línea base, reemplazamos todas las capas de atención en el decodificador con nuestra Atención de Ventana Deslizante de Referencia (R-SWA), la cual reduce los costos computacionales de la atención manteniendo una caché KV constante durante todo el proceso de decodificación. Al combinar la alta tasa de compresión del codificador de DeepSeek OCR con nuestro diseño de caché KV constante, Unlimited OCR puede transcribir docenas de páginas de documentos en una sola pasada hacia adelante bajo una longitud máxima estándar de 32K. Más importante aún, R-SWA es un mecanismo de atención de procesamiento de propósito general: más allá del OCR, es igualmente aplicable a tareas como ASR, traducción, etc. Los códigos y los pesos del modelo están disponibles públicamente en http://github.com/baidu/Unlimited-OCR.

English

Recently, end-to-end OCR models, exemplified by DeepSeek OCR, have once again thrust OCR into the spotlight. A widely held view is that employing a large language model (LLM) as the decoder allows the model to leverage the prior distribution of language, leading to improved OCR performance. However, the downside is equally evident: as the output sequence lengthens, the accumulated KV cache drives up memory consumption and progressively slows down generation. This stands in stark contrast to humans, who exhibit no such decline in efficiency during long-horizon copying tasks. In this technical report, we propose Unlimited OCR, a model designed to emulate human parsing working memory. Taking DeepSeek OCR as the baseline, we replace all attention layers in the decoder with our proposed Reference Sliding Window Attention (R-SWA), which reduces attention computation costs while maintaining a constant KV cache throughout the entire decoding process. By combining the high compression rate of DeepSeek OCR's encoder with our constant KV cache design, Unlimited OCR can transcribe dozens of pages of documents in a single forward pass under a standard maximum length of 32K. More importantly, R-SWA is a general-purpose parsing attention mechanism - beyond OCR, it is equally applicable to tasks such as ASR, translation, etc. Codes and model weights are publicly available at http://github.com/baidu/Unlimited-OCR.