ChatPaper.aiChatPaper

EvasionBench: Detecção de Respostas Evasivas em Perguntas e Respostas Financeiras através de Consenso Multi-Modelo e LLM-como-Juiz

EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

January 14, 2026
Autores: Shijian Ma, Yan Lin, Yi Yang
cs.AI

Resumo

A detecção de respostas evasivas em teleconferências de resultados é crucial para a transparência financeira, mas o progresso é dificultado pela falta de benchmarks em larga escala. Apresentamos o EvasionBench, composto por 30.000 amostras de treinamento e 1.000 amostras de teste anotadas humanamente (Kappa de Cohen 0,835) abrangendo três níveis de evasão. Nossa principal contribuição é uma estrutura de anotação multi-modelo que aproveita uma percepção central: o desacordo entre LLMs de fronteira sinaliza exemplos difíceis mais valiosos para o treinamento. Mineramos casos limítrofes onde dois anotadores fortes conflitam, usando um juiz para resolver os rótulos. Essa abordagem supera a destilação de modelo único em 2,4%, com as amostras resolvidas pelo juiz melhorando a generalização apesar de uma maior perda de treinamento (0,421 vs 0,393) – evidência de que a mineração de desacordo atua como regularização implícita. Nosso modelo treinado Eva-4B (4 bilhões de parâmetros) atinge 81,3% de precisão, superando sua base em 25 pontos percentuais e se aproximando do desempenho de LLMs de fronteira a uma fração do custo de inferência.
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.
PDF93February 8, 2026