EvasionBench : Détection des réponses évasives dans les questions-réponses financières par consensus multi-modèles et LLM-comme-juge
EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge
January 14, 2026
papers.authors: Shijian Ma, Yan Lin, Yi Yang
cs.AI
papers.abstract
La détection des réponses évasives lors des conférences de résultats est cruciale pour la transparence financière, mais les progrès sont entravés par l'absence de référentiels à grande échelle. Nous présentons EvasionBench, comprenant 30 000 échantillons d'entraînement et 1 000 échantillons de test annotés manuellement (Kappa de Cohen 0,835) répartis sur trois niveaux d'évasion. Notre contribution principale est un cadre d'annotation multi-modèles s'appuyant sur une idée fondamentale : le désaccord entre les LLMs de pointe signale les exemples difficiles les plus précieux pour l'entraînement. Nous extrayons les cas limites où deux annotateurs performants sont en conflit, en utilisant un arbitre pour résoudre les étiquettes. Cette approche surpasse de 2,4 % la distillation par modèle unique, les échantillons arbitrés améliorant la généralisation malgré une perte d'entraînement plus élevée (0,421 contre 0,393) - une preuve que l'extraction des désaccords agit comme un régularisateur implicite. Notre modèle entraîné Eva-4B (4 milliards de paramètres) atteint une précision de 81,3 %, surpassant son modèle de base de 25 points de pourcentage et approchant les performances des LLMs de pointe pour une fraction du coût d'inférence.
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.