OmniOCR: OCR Generalista para Línguas de Minorias Étnicas

Resumo

A reconhecimento óptico de caracteres (OCR) avançou rapidamente com o aprendizado profundo e modelos multimodais, porém a maioria dos métodos concentra-se em escritas de idiomas com muitos recursos, como o latim e o chinês. As línguas de minorias étnicas permanecem pouco exploradas devido a sistemas de escrita complexos, anotações escassas e formas históricas e modernas diversificadas, tornando a generalização em cenários de poucos recursos ou *zero-shot* um desafio. Para enfrentar esses desafios, apresentamos o OmniOCR, uma estrutura universal para escritas de minorias étnicas. O OmniOCR introduz a Adaptação Dinâmica de Baixa *Rank* (Dynamic LoRA) para alocar a capacidade do modelo entre camadas e escritas, permitindo uma adaptação eficaz enquanto preserva o conhecimento. Uma regularização de esparsidade poda atualizações redundantes, garantindo uma adaptação compacta e eficiente sem custo adicional de inferência. Avaliações no TibetanMNIST, Shui, Yi antigo e Dongba mostram que o OmniOCR supera modelos de base *zero-shot* e o pós-treinamento padrão, alcançando precisão de última geração com superior eficiência de parâmetros e, em comparação com os modelos de base mais avançados, melhora a precisão em 39% a 66% nestes quatro conjuntos de dados. Código: https://github.com/AIGeeksGroup/OmniOCR.

English

Optical character recognition (OCR) has advanced rapidly with deep learning and multimodal models, yet most methods focus on well-resourced scripts such as Latin and Chinese. Ethnic minority languages remain underexplored due to complex writing systems, scarce annotations, and diverse historical and modern forms, making generalization in low-resource or zero-shot settings challenging. To address these challenges, we present OmniOCR, a universal framework for ethnic minority scripts. OmniOCR introduces Dynamic Low-Rank Adaptation (Dynamic LoRA) to allocate model capacity across layers and scripts, enabling effective adaptation while preserving knowledge.A sparsity regularization prunes redundant updates, ensuring compact and efficient adaptation without extra inference cost. Evaluations on TibetanMNIST, Shui, ancient Yi, and Dongba show that OmniOCR outperforms zero-shot foundation models and standard post training, achieving state-of-the-art accuracy with superior parameter efficiency, and compared with the state-of-the-art baseline models, it improves accuracy by 39%-66% on these four datasets. Code: https://github.com/AIGeeksGroup/OmniOCR.