ChatPaper.aiChatPaper

EvasionBench: Rilevamento di Risposte Evasive in Domande e Risposte Finanziarie tramite Consenso Multi-Modello e LLM come Giudice

EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

January 14, 2026
Autori: Shijian Ma, Yan Lin, Yi Yang
cs.AI

Abstract

Rilevare le risposte elusive nelle conference call sui risultati è fondamentale per la trasparenza finanziaria, ma i progressi sono ostacolati dalla mancanza di benchmark su larga scala. Presentiamo EvasionBench, che comprende 30.000 campioni di addestramento e 1.000 campioni di test annotati manualmente (Kappa di Cohen 0,835) su tre livelli di elusione. Il nostro contributo principale è un framework di annotazione multi-modello che sfrutta un'intuizione chiave: il disaccordo tra i modelli linguistici all'avanguardia segnala esempi complessi più preziosi per l'addestramento. Estraiamo casi limite in cui due annotatori forti sono in conflitto, utilizzando un giudice per risolvere le etichette. Questo approccio supera la distillazione a modello singolo del 2,4%, con i campioni risolti dal giudice che migliorano la generalizzazione nonostante una loss di addestramento più alta (0,421 vs 0,393) - evidenza che l'estrazione del disaccordo agisce come regolarizzazione implicita. Il nostro modello addestrato Eva-4B (4 miliardi di parametri) raggiunge un'accuratezza dell'81,3%, superando il modello base di 25 punti percentuali e avvicinandosi alle prestazioni dei modelli linguistici all'avanguardia a una frazione del costo di inferenza.
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.
PDF93February 8, 2026