ChatPaper.aiChatPaper

CDM:数式認識の公平かつ正確な評価を実現する信頼性の高い指標

CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation

September 5, 2024
著者: Bin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He
cs.AI

要旨

数式認識は、数学式の複雑な構造と多様な表記法により大きな課題を抱えている。数式認識モデルが絶えず進歩しているにもかかわらず、これらのモデルで用いられるBLEUや編集距離などの評価指標には依然として顕著な限界がある。これらは同一の数式が多様な表現を持ち、訓練データの分布に敏感に反応するという事実を見落としており、それにより数式認識評価における不公平性を引き起こしている。この問題に対処するため、我々は文字検出マッチング(CDM)指標を提案する。これはLaTeXレベルではなく画像レベルの指標スコアを設計することで、評価の客観性を確保するものである。具体的には、CDMはモデルが予測したLaTeXと正解LaTeXの数式を両方とも画像形式の数式にレンダリングし、視覚的特徴抽出と位置特定技術を用いて空間的位置情報を組み込んだ文字レベルの精密なマッチングを行う。このように空間認識を備えた文字マッチング手法は、従来のテキストベースの文字マッチングに依存するBLEUや編集距離指標と比較して、より正確で公平な評価を提供する。実験では、CDM、BLEU、ExpRateの各指標を用いて様々な数式認識モデルを評価した。その結果、CDMは人間の評価基準により密接に合致し、多様な数式表現による不一致を排除することで異なるモデル間の公平な比較を提供することが実証された。
English
Formula recognition presents significant challenges due to the complicated structure and varied notation of mathematical expressions. Despite continuous advancements in formula recognition models, the evaluation metrics employed by these models, such as BLEU and Edit Distance, still exhibit notable limitations. They overlook the fact that the same formula has diverse representations and is highly sensitive to the distribution of training data, thereby causing the unfairness in formula recognition evaluation. To this end, we propose a Character Detection Matching (CDM) metric, ensuring the evaluation objectivity by designing a image-level rather than LaTex-level metric score. Specifically, CDM renders both the model-predicted LaTeX and the ground-truth LaTeX formulas into image-formatted formulas, then employs visual feature extraction and localization techniques for precise character-level matching, incorporating spatial position information. Such a spatially-aware and character-matching method offers a more accurate and equitable evaluation compared with previous BLEU and Edit Distance metrics that rely solely on text-based character matching. Experimentally, we evaluated various formula recognition models using CDM, BLEU, and ExpRate metrics. Their results demonstrate that the CDM aligns more closely with human evaluation standards and provides a fairer comparison across different models by eliminating discrepancies caused by diverse formula representations.
PDF193November 14, 2024