EvasionBench: Выявление уклончивых ответов в финансовых вопросах и ответах с помощью консенсуса мультимоделей и LLM-как-судьи
EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge
January 14, 2026
Авторы: Shijian Ma, Yan Lin, Yi Yang
cs.AI
Аннотация
Выявление уклончивых ответов в ходе конференц-звонков по отчетности имеет решающее значение для финансовой прозрачности, однако прогресс сдерживается отсутствием масштабных бенчмарков. Мы представляем EvasionBench, включающий 30 000 обучающих примеров и 1000 размеченных человеком тестовых примеров (каппа Коэна 0.835) по трем уровням уклончивости. Нашим ключевым вкладом является многомодельная система разметки, основанная на ключевой идее: расхождения между передовыми большими языковыми моделями сигнализируют о сложных примерах, наиболее ценных для обучения. Мы выявляем пограничные случаи, когда две сильные модели-аннотаторы дают противоречивые оценки, привлечая модель-арбитра для финальной разметки. Этот подход превосходит дистилляцию от одной модели на 2.4%, при этом примеры с арбитражем улучшают обобщающую способность, несмотря на более высокие потери при обучении (0.421 против 0.393) — что свидетельствует о неявной регуляризации за счет анализа разногласий. Наша обученная модель Eva-4B (4 миллиарда параметров) достигает точности 81.3%, превосходя базовую модель на 25 процентных пунктов и приближаясь к производительности передовых LLM при существенно меньших вычислительных затратах на вывод.
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.