CDM: Eine zuverlässige Metrik für faire und präzise Evaluation von Formelerkennung
CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation
September 5, 2024
papers.authors: Bin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He
cs.AI
papers.abstract
Die Formelerkennung stellt aufgrund der komplexen Struktur und variablen Notation mathematischer Ausdrücke erhebliche Herausforderungen dar. Trotz kontinuierlicher Fortschritte bei Formelerkennungsmodellen weisen die von diesen Modellen verwendeten Evaluierungsmetriken, wie BLEU und Edit Distance, nach wie vor bemerkenswerte Einschränkungen auf. Sie übersehen die Tatsache, dass dieselbe Formel diverse Darstellungen besitzt und höchst sensibel auf die Verteilung der Trainingsdaten reagiert, was folglich zu Ungerechtigkeiten bei der Bewertung der Formelerkennung führt. Zu diesem Zweck schlagen wir eine Character Detection Matching (CDM)-Metrik vor, die die Bewertungsobjektivität durch die Entwicklung einer bildbasierten anstelle einer LaTeX-basierten Metrik gewährleistet. Konkret rendert CDM sowohl die vom Modell vorhergesagten LaTeX-Formeln als auch die Ground-Truth-LaTeX-Formeln in bildformatierte Formeln, setzt dann Techniken zur visuellen Merkmalsextraktion und Lokalisierung für eine präzise zeichenweise Zuordnung ein und integriert räumliche Positionsinformationen. Eine derart raumbewusste und zeichenzuordnende Methode bietet im Vergleich zu früheren BLEU- und Edit-Distance-Metriken, die ausschließlich auf textbasierter Zeichenzuordnung beruhen, eine genauere und gerechtere Bewertung. Experimentell bewerteten wir verschiedene Formelerkennungsmodelle unter Verwendung von CDM, BLEU und ExpRate-Metriken. Die Ergebnisse zeigen, dass CDM enger mit menschlichen Bewertungsstandards übereinstimmt und durch die Beseitigung von Diskrepanzen, die durch unterschiedliche Formeldarstellungen verursacht werden, einen gerechteren Vergleich verschiedener Modelle ermöglicht.
English
Formula recognition presents significant challenges due to the complicated
structure and varied notation of mathematical expressions. Despite continuous
advancements in formula recognition models, the evaluation metrics employed by
these models, such as BLEU and Edit Distance, still exhibit notable
limitations. They overlook the fact that the same formula has diverse
representations and is highly sensitive to the distribution of training data,
thereby causing the unfairness in formula recognition evaluation. To this end,
we propose a Character Detection Matching (CDM) metric, ensuring the evaluation
objectivity by designing a image-level rather than LaTex-level metric score.
Specifically, CDM renders both the model-predicted LaTeX and the ground-truth
LaTeX formulas into image-formatted formulas, then employs visual feature
extraction and localization techniques for precise character-level matching,
incorporating spatial position information. Such a spatially-aware and
character-matching method offers a more accurate and equitable evaluation
compared with previous BLEU and Edit Distance metrics that rely solely on
text-based character matching. Experimentally, we evaluated various formula
recognition models using CDM, BLEU, and ExpRate metrics. Their results
demonstrate that the CDM aligns more closely with human evaluation standards
and provides a fairer comparison across different models by eliminating
discrepancies caused by diverse formula representations.