MegaHan97K : Un jeu de données à grande échelle pour la reconnaissance de caractères chinois en méga-catégories avec plus de 97 000 catégories
MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories
June 5, 2025
Auteurs: Yuyi Zhang, Yongxin Shi, Peirong Zhang, Yixin Zhao, Zhenhua Yang, Lianwen Jin
cs.AI
Résumé
Fondamentaux pour la langue et la culture chinoises, les caractères chinois englobent des catégories extraordinairement vastes et en constante expansion, avec la dernière norme chinoise GB18030-2022 comprenant 87 887 catégories. La reconnaissance précise de ce nombre considérable de caractères, appelée reconnaissance méga-catégorielle, représente un défi redoutable mais crucial pour la préservation du patrimoine culturel et les applications numériques. Malgré des avancées significatives dans la reconnaissance optique de caractères (OCR), la reconnaissance méga-catégorielle reste inexplorée en raison de l'absence de jeux de données complets, le plus grand jeu de données existant ne contenant que 16 151 catégories. Pour combler cette lacune critique, nous présentons MegaHan97K, un jeu de données méga-catégoriel et à grande échelle couvrant un nombre sans précédent de 97 455 catégories de caractères chinois. Notre travail apporte trois contributions majeures : (1) MegaHan97K est le premier jeu de données à pleinement supporter la dernière norme GB18030-2022, offrant au moins six fois plus de catégories que les jeux de données existants ; (2) Il résout efficacement le problème de distribution à longue traîne en fournissant des échantillons équilibrés pour toutes les catégories grâce à ses trois sous-ensembles distincts : manuscrit, historique et synthétique ; (3) Des expériences de référencement exhaustives révèlent de nouveaux défis dans les scénarios méga-catégoriels, notamment des besoins accrus en stockage, la reconnaissance de caractères morphologiquement similaires et les difficultés d'apprentissage zero-shot, tout en ouvrant des opportunités substantielles pour les recherches futures. À notre connaissance, MegaHan97K est probablement le jeu de données avec le plus grand nombre de classes, non seulement dans le domaine de l'OCR, mais peut-être aussi dans le domaine plus large de la reconnaissance de formes. Le jeu de données est disponible à l'adresse suivante : https://github.com/SCUT-DLVCLab/MegaHan97K.
English
Foundational to the Chinese language and culture, Chinese characters
encompass extraordinarily extensive and ever-expanding categories, with the
latest Chinese GB18030-2022 standard containing 87,887 categories. The accurate
recognition of this vast number of characters, termed mega-category
recognition, presents a formidable yet crucial challenge for cultural heritage
preservation and digital applications. Despite significant advances in Optical
Character Recognition (OCR), mega-category recognition remains unexplored due
to the absence of comprehensive datasets, with the largest existing dataset
containing merely 16,151 categories. To bridge this critical gap, we introduce
MegaHan97K, a mega-category, large-scale dataset covering an unprecedented
97,455 categories of Chinese characters. Our work offers three major
contributions: (1) MegaHan97K is the first dataset to fully support the latest
GB18030-2022 standard, providing at least six times more categories than
existing datasets; (2) It effectively addresses the long-tail distribution
problem by providing balanced samples across all categories through its three
distinct subsets: handwritten, historical and synthetic subsets; (3)
Comprehensive benchmarking experiments reveal new challenges in mega-category
scenarios, including increased storage demands, morphologically similar
character recognition, and zero-shot learning difficulties, while also
unlocking substantial opportunities for future research. To the best of our
knowledge, the MetaHan97K is likely the dataset with the largest classes not
only in the field of OCR but may also in the broader domain of pattern
recognition. The dataset is available at
https://github.com/SCUT-DLVCLab/MegaHan97K.