ChatPaper.aiChatPaper

EvasionBench: 다중 모델 합의 및 LLM-as-Judge를 통한 금융 Q&A에서 회피적 답변 탐지

EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

January 14, 2026
저자: Shijian Ma, Yan Lin, Yi Yang
cs.AI

초록

기업 실적 발표회에서 회피적 답변을 탐지하는 것은 재무 투명성에 중요하지만 대규모 벤치마크의 부재로 연구 발전이 더딘 상황이다. 우리는 3단계 회피 수준으로 구성된 30,000개 훈련 샘플과 1,000개 인간 주석 테스트 샘플(Cohen's Kappa 0.835)을 포함하는 EvasionBench을 소개한다. 본 연구의 핵심 기여는 최첨단 LLM 간 의견 불일치가 훈련에 가장 유용한 난이도 높은 사례를 나타낸다는 통찰을 활용한 다중 모델 주석 프레임워크이다. 우리는 두 강력한 주석 모델이 충돌하는 경계 사례를 채굴하고 판단 모델을 통해 최종 레이블을 결정한다. 이 접근법은 단일 모델 증류 방식보다 2.4% 우수한 성능을 보였으며, 판단 모델로 해결된 샘플은 더 높은 훈련 손실(0.421 vs 0.393)에도 불구하고 일반화 성능을 향상시켜 불일치 채굴이 암묵적 정규화로 작용함을 입증했다. 훈련된 모델 Eva-4B(40억 매개변수)는 81.3% 정확도를 달성하여 기본 모델 대비 25%p 향상되었으며, 추론 비용은 극소수 수준으로 최첨단 LLM 성능에 근접했다.
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.
PDF72January 17, 2026