CDM:数式認識の公平かつ正確な評価を実現する信頼性の高い指標
CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation
September 5, 2024
著者: Bin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He
cs.AI
要旨
数式認識は、数学式の複雑な構造と多様な表記法により大きな課題を抱えている。数式認識モデルが絶えず進歩しているにもかかわらず、これらのモデルで用いられるBLEUや編集距離などの評価指標には依然として顕著な限界がある。これらは同一の数式が多様な表現を持ち、訓練データの分布に敏感に反応するという事実を見落としており、それにより数式認識評価における不公平性を引き起こしている。この問題に対処するため、我々は文字検出マッチング(CDM)指標を提案する。これはLaTeXレベルではなく画像レベルの指標スコアを設計することで、評価の客観性を確保するものである。具体的には、CDMはモデルが予測したLaTeXと正解LaTeXの数式を両方とも画像形式の数式にレンダリングし、視覚的特徴抽出と位置特定技術を用いて空間的位置情報を組み込んだ文字レベルの精密なマッチングを行う。このように空間認識を備えた文字マッチング手法は、従来のテキストベースの文字マッチングに依存するBLEUや編集距離指標と比較して、より正確で公平な評価を提供する。実験では、CDM、BLEU、ExpRateの各指標を用いて様々な数式認識モデルを評価した。その結果、CDMは人間の評価基準により密接に合致し、多様な数式表現による不一致を排除することで異なるモデル間の公平な比較を提供することが実証された。
English
Formula recognition presents significant challenges due to the complicated
structure and varied notation of mathematical expressions. Despite continuous
advancements in formula recognition models, the evaluation metrics employed by
these models, such as BLEU and Edit Distance, still exhibit notable
limitations. They overlook the fact that the same formula has diverse
representations and is highly sensitive to the distribution of training data,
thereby causing the unfairness in formula recognition evaluation. To this end,
we propose a Character Detection Matching (CDM) metric, ensuring the evaluation
objectivity by designing a image-level rather than LaTex-level metric score.
Specifically, CDM renders both the model-predicted LaTeX and the ground-truth
LaTeX formulas into image-formatted formulas, then employs visual feature
extraction and localization techniques for precise character-level matching,
incorporating spatial position information. Such a spatially-aware and
character-matching method offers a more accurate and equitable evaluation
compared with previous BLEU and Edit Distance metrics that rely solely on
text-based character matching. Experimentally, we evaluated various formula
recognition models using CDM, BLEU, and ExpRate metrics. Their results
demonstrate that the CDM aligns more closely with human evaluation standards
and provides a fairer comparison across different models by eliminating
discrepancies caused by diverse formula representations.