MegaHan97K: Un Dataset su Larga Scala per il Riconoscimento di Caratteri Cinesi in Mega-Categorie con oltre 97K Categorie
MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories
June 5, 2025
Autori: Yuyi Zhang, Yongxin Shi, Peirong Zhang, Yixin Zhao, Zhenhua Yang, Lianwen Jin
cs.AI
Abstract
Fondamentali per la lingua e la cultura cinese, i caratteri cinesi abbracciano categorie straordinariamente estese e in continua espansione, con l'ultimo standard cinese GB18030-2022 che ne contiene 87.887. Il riconoscimento accurato di questo vasto numero di caratteri, denominato riconoscimento mega-categoria, rappresenta una sfida formidabile ma cruciale per la preservazione del patrimonio culturale e le applicazioni digitali. Nonostante i significativi progressi nel riconoscimento ottico dei caratteri (OCR), il riconoscimento mega-categoria rimane inesplorato a causa dell'assenza di dataset completi, con il più grande dataset esistente che contiene appena 16.151 categorie. Per colmare questa lacuna critica, introduciamo MegaHan97K, un dataset su larga scala e mega-categoria che copre un numero senza precedenti di 97.455 categorie di caratteri cinesi. Il nostro lavoro offre tre contributi principali: (1) MegaHan97K è il primo dataset a supportare completamente l'ultimo standard GB18030-2022, fornendo almeno sei volte più categorie rispetto ai dataset esistenti; (2) Affronta efficacemente il problema della distribuzione a coda lunga fornendo campioni bilanciati in tutte le categorie attraverso i suoi tre distinti sottoinsiemi: manoscritto, storico e sintetico; (3) Esperimenti di benchmarking completi rivelano nuove sfide negli scenari mega-categoria, tra cui maggiori esigenze di archiviazione, riconoscimento di caratteri morfologicamente simili e difficoltà nell'apprendimento zero-shot, aprendo al contempo sostanziali opportunità per la ricerca futura. Per quanto ne sappiamo, MegaHan97K è probabilmente il dataset con il maggior numero di classi non solo nel campo dell'OCR, ma potenzialmente anche nel più ampio dominio del riconoscimento di pattern. Il dataset è disponibile all'indirizzo https://github.com/SCUT-DLVCLab/MegaHan97K.
English
Foundational to the Chinese language and culture, Chinese characters
encompass extraordinarily extensive and ever-expanding categories, with the
latest Chinese GB18030-2022 standard containing 87,887 categories. The accurate
recognition of this vast number of characters, termed mega-category
recognition, presents a formidable yet crucial challenge for cultural heritage
preservation and digital applications. Despite significant advances in Optical
Character Recognition (OCR), mega-category recognition remains unexplored due
to the absence of comprehensive datasets, with the largest existing dataset
containing merely 16,151 categories. To bridge this critical gap, we introduce
MegaHan97K, a mega-category, large-scale dataset covering an unprecedented
97,455 categories of Chinese characters. Our work offers three major
contributions: (1) MegaHan97K is the first dataset to fully support the latest
GB18030-2022 standard, providing at least six times more categories than
existing datasets; (2) It effectively addresses the long-tail distribution
problem by providing balanced samples across all categories through its three
distinct subsets: handwritten, historical and synthetic subsets; (3)
Comprehensive benchmarking experiments reveal new challenges in mega-category
scenarios, including increased storage demands, morphologically similar
character recognition, and zero-shot learning difficulties, while also
unlocking substantial opportunities for future research. To the best of our
knowledge, the MetaHan97K is likely the dataset with the largest classes not
only in the field of OCR but may also in the broader domain of pattern
recognition. The dataset is available at
https://github.com/SCUT-DLVCLab/MegaHan97K.