CDM: 공정하고 정확한 수식 인식 평가를 위한 신뢰할 수 있는 지표
CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation
September 5, 2024
저자: Bin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He
cs.AI
초록
수식 인식은 수학 표현식의 복잡한 구조와 다양한 표기법으로 인해 상당한 어려움을 제시합니다. 수식 인식 모델의 지속적인 발전에도 불구하고, 이러한 모델들이 사용하는 BLEU 및 Edit Distance와 같은 평가 지표는 여전히 뚜렷한 한계를 보입니다. 기존 지표들은 동일한 수식이 다양한 표현을 가질 수 있다는 사실과 훈련 데이터 분포에 매우 민감하다는 점을 간과하여 수식 인식 평가의 불공정성을 초래합니다. 이를 위해 본 논문에서는 이미지 수준의 평가 점수를 설계하여 평가의 객관성을 보장하는 문자 검출 매칭(CDM) 지표를 제안합니다. 구체적으로, CDM은 모델이 예측한 LaTeX과 실제 정답 LaTeX 수식을 모두 이미지 형식의 수식으로 변환한 후, 시각적 특징 추출 및 위치 파악 기술을 활용하여 공간 위치 정보를 포함한 정밀한 문자 수준 매칭을 수행합니다. 이러한 공간 인식 및 문자 매칭 방식은 텍스트 기반 문자 매칭에만 의존하는 기존의 BLEU 및 Edit Distance 지표보다 더 정확하고 공정한 평가를 제공합니다. 실험적으로 CDM, BLEU, ExpRate 지표를 사용하여 다양한 수식 인식 모델을 평가한 결과, CDM이 인간의 평가 기준과 더 밀접하게 일치하며 다양한 수식 표현으로 인한 차이를 제거하여 서로 다른 모델 간에 더 공정한 비교를 제공함을 입증하였습니다.
English
Formula recognition presents significant challenges due to the complicated
structure and varied notation of mathematical expressions. Despite continuous
advancements in formula recognition models, the evaluation metrics employed by
these models, such as BLEU and Edit Distance, still exhibit notable
limitations. They overlook the fact that the same formula has diverse
representations and is highly sensitive to the distribution of training data,
thereby causing the unfairness in formula recognition evaluation. To this end,
we propose a Character Detection Matching (CDM) metric, ensuring the evaluation
objectivity by designing a image-level rather than LaTex-level metric score.
Specifically, CDM renders both the model-predicted LaTeX and the ground-truth
LaTeX formulas into image-formatted formulas, then employs visual feature
extraction and localization techniques for precise character-level matching,
incorporating spatial position information. Such a spatially-aware and
character-matching method offers a more accurate and equitable evaluation
compared with previous BLEU and Edit Distance metrics that rely solely on
text-based character matching. Experimentally, we evaluated various formula
recognition models using CDM, BLEU, and ExpRate metrics. Their results
demonstrate that the CDM aligns more closely with human evaluation standards
and provides a fairer comparison across different models by eliminating
discrepancies caused by diverse formula representations.