MegaHan97K: Un Dataset su Larga Scala per il Riconoscimento di Caratteri Cinesi in Mega-Categorie con oltre 97K Categorie

Abstract

Fondamentali per la lingua e la cultura cinese, i caratteri cinesi abbracciano categorie straordinariamente estese e in continua espansione, con l'ultimo standard cinese GB18030-2022 che ne contiene 87.887. Il riconoscimento accurato di questo vasto numero di caratteri, denominato riconoscimento mega-categoria, rappresenta una sfida formidabile ma cruciale per la preservazione del patrimonio culturale e le applicazioni digitali. Nonostante i significativi progressi nel riconoscimento ottico dei caratteri (OCR), il riconoscimento mega-categoria rimane inesplorato a causa dell'assenza di dataset completi, con il più grande dataset esistente che contiene appena 16.151 categorie. Per colmare questa lacuna critica, introduciamo MegaHan97K, un dataset su larga scala e mega-categoria che copre un numero senza precedenti di 97.455 categorie di caratteri cinesi. Il nostro lavoro offre tre contributi principali: (1) MegaHan97K è il primo dataset a supportare completamente l'ultimo standard GB18030-2022, fornendo almeno sei volte più categorie rispetto ai dataset esistenti; (2) Affronta efficacemente il problema della distribuzione a coda lunga fornendo campioni bilanciati in tutte le categorie attraverso i suoi tre distinti sottoinsiemi: manoscritto, storico e sintetico; (3) Esperimenti di benchmarking completi rivelano nuove sfide negli scenari mega-categoria, tra cui maggiori esigenze di archiviazione, riconoscimento di caratteri morfologicamente simili e difficoltà nell'apprendimento zero-shot, aprendo al contempo sostanziali opportunità per la ricerca futura. Per quanto ne sappiamo, MegaHan97K è probabilmente il dataset con il maggior numero di classi non solo nel campo dell'OCR, ma potenzialmente anche nel più ampio dominio del riconoscimento di pattern. Il dataset è disponibile all'indirizzo https://github.com/SCUT-DLVCLab/MegaHan97K.

English

Foundational to the Chinese language and culture, Chinese characters encompass extraordinarily extensive and ever-expanding categories, with the latest Chinese GB18030-2022 standard containing 87,887 categories. The accurate recognition of this vast number of characters, termed mega-category recognition, presents a formidable yet crucial challenge for cultural heritage preservation and digital applications. Despite significant advances in Optical Character Recognition (OCR), mega-category recognition remains unexplored due to the absence of comprehensive datasets, with the largest existing dataset containing merely 16,151 categories. To bridge this critical gap, we introduce MegaHan97K, a mega-category, large-scale dataset covering an unprecedented 97,455 categories of Chinese characters. Our work offers three major contributions: (1) MegaHan97K is the first dataset to fully support the latest GB18030-2022 standard, providing at least six times more categories than existing datasets; (2) It effectively addresses the long-tail distribution problem by providing balanced samples across all categories through its three distinct subsets: handwritten, historical and synthetic subsets; (3) Comprehensive benchmarking experiments reveal new challenges in mega-category scenarios, including increased storage demands, morphologically similar character recognition, and zero-shot learning difficulties, while also unlocking substantial opportunities for future research. To the best of our knowledge, the MetaHan97K is likely the dataset with the largest classes not only in the field of OCR but may also in the broader domain of pattern recognition. The dataset is available at https://github.com/SCUT-DLVCLab/MegaHan97K.

MegaHan97K: Un Dataset su Larga Scala per il Riconoscimento di Caratteri Cinesi in Mega-Categorie con oltre 97K Categorie

MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories

Abstract

Support