ChatPaper.aiChatPaper

EvasionBench: Erkennung ausweichender Antworten in Finanz-Frage-Antwort-Systemen durch Multi-Modell-Konsens und LLM-als-Richter

EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

January 14, 2026
papers.authors: Shijian Ma, Yan Lin, Yi Yang
cs.AI

papers.abstract

Die Erkennung ausweichender Antworten in Gewinnmitteilungen ist entscheidend für die Finanztransparenz, doch der Fortschritt wird durch das Fehlen groß angelegter Benchmarks behindert. Wir stellen EvasionBench vor, das 30.000 Trainingsbeispiele und 1.000 menschlich annotierte Testbeispiele (Cohens Kappa 0,835) über drei Ausweichstufen hinweg umfasst. Unser wesentlicher Beitrag ist ein Multi-Modell-Annotationsframework, das auf einer zentralen Erkenntnis basiert: Diskrepanzen zwischen fortschrittlichen LLMs signalisieren schwierige Beispiele, die für das Training am wertvollsten sind. Wir identifizieren Grenzfälle, bei denen zwei starke Annotatoren widersprüchliche Bewertungen abgeben, und nutzen einen Schiedsrichter zur endgültigen Labelzuweisung. Dieser Ansatz übertrifft die Distillation mit Einzelmodellen um 2,4 Prozentpunkte, wobei die schiedsrichtergelösten Beispiele die Generalisierungsfähigkeit verbessern – trotz höheren Trainingsverlusts (0,421 vs. 0,393). Dies deutet darauf hin, dass Diskrepanz-Mining als implizite Regularisierung wirkt. Unser trainierter Modell Eva-4B (4 Milliarden Parameter) erreicht eine Genauigkeit von 81,3 Prozent, übertrifft seine Basis um 25 Prozentpunkte und nähert sich der Leistung führender LLMs bei einem Bruchteil der Inferenzkosten.
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.
PDF72January 17, 2026