FinLFQA: Evaluación de la Generación de Texto Atribuido de los LLM en la Respuesta a Preguntas de Formato Largo en el Ámbito Financiero
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
October 7, 2025
Autores: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) frecuentemente alucinan al responder preguntas extensas, produciendo respuestas plausibles pero factualmente incorrectas. Una estrategia común de mitigación es proporcionar atribución a las salidas de los LLMs. Sin embargo, los puntos de referencia existentes se centran principalmente en atribuciones simples que recuperan evidencia textual de apoyo como referencias. Argumentamos que, en escenarios del mundo real, como aplicaciones financieras, la atribución va más allá de la recuperación de referencias. Introducimos FinLFQA, un punto de referencia diseñado para evaluar la capacidad de los LLMs para generar respuestas extensas a preguntas financieras complejas con atribuciones confiables y matizadas. FinLFQA evalúa tres aspectos críticos de la atribución mediante anotaciones humanas: (1) evidencia de apoyo extraída de informes financieros, (2) pasos intermedios de razonamiento numérico y (3) conocimiento financiero específico del dominio que informa el proceso de razonamiento. Además, proporcionamos un marco de evaluación automática que cubre tanto la calidad de las respuestas como la calidad de la atribución. A través de experimentos exhaustivos en ocho LLMs utilizando múltiples paradigmas de generación de atribuciones, encontramos que las métricas detalladas son importantes para distinguir las capacidades de los modelos, que la generación de extremo a extremo alcanza un rendimiento comparable a los enfoques post-hoc, y que el refinamiento iterativo solo ayuda cuando está guiado por retroalimentación externa.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions,
producing plausible yet factually incorrect answers. A common mitigation
strategy is to provide attribution to LLM outputs. However, existing benchmarks
primarily focus on simple attribution that retrieves supporting textual
evidence as references. We argue that in real-world scenarios such as financial
applications, attribution goes beyond reference retrieval. We introduce
FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate
long-form answers to complex financial questions with reliable and nuanced
attributions. FinLFQA evaluates three critical aspects of attribution through
human annotations: (1) supporting evidence extracted from financial reports,
(2) intermediate numerical reasoning steps, and (3) domain-specific financial
knowledge that informs the reasoning process. We further provide an automatic
evaluation framework covering both answer quality and attribution quality.
Through extensive experiments on eight LLMs across multiple
attribution-generation paradigms, we find that fine-grained metrics are
important to distinguish model capabilities, that end-to-end generation
achieves comparable performance to post-hoc approaches, and that iterative
refinement only helps when guided by external feedback.