EvasionBench: Detección de Respuestas Evasivas en Preguntas y Respuestas Financieras mediante Consenso Multi-Modelo y LLM-como-Juez
EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge
January 14, 2026
Autores: Shijian Ma, Yan Lin, Yi Yang
cs.AI
Resumen
La detección de respuestas evasivas en las conferencias de resultados es fundamental para la transparencia financiera, aunque el progreso se ve obstaculizado por la falta de puntos de referencia a gran escala. Presentamos EvasionBench, que comprende 30.000 muestras de entrenamiento y 1.000 muestras de prueba anotadas manualmente (Kappa de Cohen 0,835) en tres niveles de evasión. Nuestra contribución clave es un marco de anotación multi-modelo que aprovecha una idea fundamental: el desacuerdo entre los LLMs de vanguardia señala ejemplos difíciles más valiosos para el entrenamiento. Extraemos casos límite donde dos anotadores fuertes entran en conflicto, utilizando un juez para resolver las etiquetas. Este enfoque supera a la destilación de modelo único en un 2,4 por ciento, y las muestras resueltas por el juez mejoran la generalización a pesar de una mayor pérdida de entrenamiento (0,421 frente a 0,393), lo que evidencia que la minería de desacuerdos actúa como regularización implícita. Nuestro modelo entrenado Eva-4B (4.000 millones de parámetros) alcanza un 81,3 por ciento de precisión, superando a su base en 25 puntos porcentuales y acercándose al rendimiento de los LLMs de vanguardia a una fracción del costo de inferencia.
English
Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.