ChatPaper.aiChatPaper

EvasionBench: マルチモデル合意とLLM-as-Judgeによる金融Q&Aにおける回避的回答の検出

EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

January 14, 2026
著者: Shijian Ma, Yan Lin, Yi Yang
cs.AI

要旨

企業決算説明会における曖昧な回答の検出は財務透明性の確保において極めて重要であるが、大規模なベンチマークの不足が研究の進展を妨げている。本研究では、30,000の訓練サンプルと3つの回避レベルにわたる1,000の人手注釈テストサンプル(Cohen's Kappa 0.835)から構成されるEvasionBenchを提案する。中核的知見として、先進的LLM間の不一致が訓練に最も価値のある難易度の高い事例を示唆するというマルチモデル注訳フレームワークが我々の主要な貢献である。2つの強力な注釈モデルが矛盾する境界事例を抽出し、ジャッジモデルによるラベル決定を実施する。この手法は単一モデル蒸留を2.4%上回り、ジャッジ解決サンプルは訓練損失の増加(0.421対0.393)にも関わらず汎化性能を向上させた。これは不一致マイニングが暗黙的な正則化として機能する証左である。訓練済みモデルEva-4B(40億パラメータ)は81.3%の精度を達成し、ベースモデルを25ポイント上回り、推論コストを大幅に抑えつつ先進的LLMの性能に迫る結果を示した。
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.
PDF72January 17, 2026