MegaHan97K : Un jeu de données à grande échelle pour la reconnaissance de caractères chinois en méga-catégories avec plus de 97 000 catégories

Résumé

Fondamentaux pour la langue et la culture chinoises, les caractères chinois englobent des catégories extraordinairement vastes et en constante expansion, avec la dernière norme chinoise GB18030-2022 comprenant 87 887 catégories. La reconnaissance précise de ce nombre considérable de caractères, appelée reconnaissance méga-catégorielle, représente un défi redoutable mais crucial pour la préservation du patrimoine culturel et les applications numériques. Malgré des avancées significatives dans la reconnaissance optique de caractères (OCR), la reconnaissance méga-catégorielle reste inexplorée en raison de l'absence de jeux de données complets, le plus grand jeu de données existant ne contenant que 16 151 catégories. Pour combler cette lacune critique, nous présentons MegaHan97K, un jeu de données méga-catégoriel et à grande échelle couvrant un nombre sans précédent de 97 455 catégories de caractères chinois. Notre travail apporte trois contributions majeures : (1) MegaHan97K est le premier jeu de données à pleinement supporter la dernière norme GB18030-2022, offrant au moins six fois plus de catégories que les jeux de données existants ; (2) Il résout efficacement le problème de distribution à longue traîne en fournissant des échantillons équilibrés pour toutes les catégories grâce à ses trois sous-ensembles distincts : manuscrit, historique et synthétique ; (3) Des expériences de référencement exhaustives révèlent de nouveaux défis dans les scénarios méga-catégoriels, notamment des besoins accrus en stockage, la reconnaissance de caractères morphologiquement similaires et les difficultés d'apprentissage zero-shot, tout en ouvrant des opportunités substantielles pour les recherches futures. À notre connaissance, MegaHan97K est probablement le jeu de données avec le plus grand nombre de classes, non seulement dans le domaine de l'OCR, mais peut-être aussi dans le domaine plus large de la reconnaissance de formes. Le jeu de données est disponible à l'adresse suivante : https://github.com/SCUT-DLVCLab/MegaHan97K.

English

Foundational to the Chinese language and culture, Chinese characters encompass extraordinarily extensive and ever-expanding categories, with the latest Chinese GB18030-2022 standard containing 87,887 categories. The accurate recognition of this vast number of characters, termed mega-category recognition, presents a formidable yet crucial challenge for cultural heritage preservation and digital applications. Despite significant advances in Optical Character Recognition (OCR), mega-category recognition remains unexplored due to the absence of comprehensive datasets, with the largest existing dataset containing merely 16,151 categories. To bridge this critical gap, we introduce MegaHan97K, a mega-category, large-scale dataset covering an unprecedented 97,455 categories of Chinese characters. Our work offers three major contributions: (1) MegaHan97K is the first dataset to fully support the latest GB18030-2022 standard, providing at least six times more categories than existing datasets; (2) It effectively addresses the long-tail distribution problem by providing balanced samples across all categories through its three distinct subsets: handwritten, historical and synthetic subsets; (3) Comprehensive benchmarking experiments reveal new challenges in mega-category scenarios, including increased storage demands, morphologically similar character recognition, and zero-shot learning difficulties, while also unlocking substantial opportunities for future research. To the best of our knowledge, the MetaHan97K is likely the dataset with the largest classes not only in the field of OCR but may also in the broader domain of pattern recognition. The dataset is available at https://github.com/SCUT-DLVCLab/MegaHan97K.