EvasionBench: Detectie van Ontwijkende Antwoorden in Financiële Vraag-en-Antwoord via Multi-Model Consensus en LLM-als-Rechter
EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge
January 14, 2026
Auteurs: Shijian Ma, Yan Lin, Yi Yang
cs.AI
Samenvatting
Het detecteren van ontwijkende antwoorden tijdens resultatenpresentaties is cruciaal voor financiële transparantie, maar de vooruitgang wordt belemmerd door het gebrek aan grootschalige benchmarks. Wij introduceren EvasionBench, bestaande uit 30.000 trainingsvoorbeelden en 1.000 door mensen geannoteerde testvoorbeelden (Cohen's Kappa 0.835) over drie ontwijkingsniveaus. Onze belangrijkste bijdrage is een multi-model annotatieraamwerk dat gebruikmaakt van een kerninzicht: onenigheid tussen geavanceerde LLM's signaleert moeilijke voorbeelden die het meest waardevol zijn voor training. We identificeren grensvoorbeelden waarbij twee sterke annotatoren van mening verschillen en gebruiken een scheidsrechter om de labels vast te stellen. Deze aanpak presteert 2,4 procent beter dan distillatie met een enkel model, waarbij de door de scheidsrechter vastgestelde voorbeelden de generalisatie verbeteren ondanks een hoger trainingsverlies (0.421 versus 0.393) - een aanwijzing dat het minen van onenigheid functioneert als impliciete regularisatie. Ons getrainde model Eva-4B (4 miljard parameters) behaalt een nauwkeurigheid van 81,3 procent, presteert 25 procentpunt beter dan zijn basismodel en benadert de prestaties van geavanceerde LLM's tegen een fractie van de inferentiekosten.
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.