ChatPaper.aiChatPaper

FinLFQA: Evaluación de la Generación de Texto Atribuido de los LLM en la Respuesta a Preguntas de Formato Largo en el Ámbito Financiero

FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering

October 7, 2025
Autores: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) frecuentemente alucinan al responder preguntas extensas, produciendo respuestas plausibles pero factualmente incorrectas. Una estrategia común de mitigación es proporcionar atribución a las salidas de los LLMs. Sin embargo, los puntos de referencia existentes se centran principalmente en atribuciones simples que recuperan evidencia textual de apoyo como referencias. Argumentamos que, en escenarios del mundo real, como aplicaciones financieras, la atribución va más allá de la recuperación de referencias. Introducimos FinLFQA, un punto de referencia diseñado para evaluar la capacidad de los LLMs para generar respuestas extensas a preguntas financieras complejas con atribuciones confiables y matizadas. FinLFQA evalúa tres aspectos críticos de la atribución mediante anotaciones humanas: (1) evidencia de apoyo extraída de informes financieros, (2) pasos intermedios de razonamiento numérico y (3) conocimiento financiero específico del dominio que informa el proceso de razonamiento. Además, proporcionamos un marco de evaluación automática que cubre tanto la calidad de las respuestas como la calidad de la atribución. A través de experimentos exhaustivos en ocho LLMs utilizando múltiples paradigmas de generación de atribuciones, encontramos que las métricas detalladas son importantes para distinguir las capacidades de los modelos, que la generación de extremo a extremo alcanza un rendimiento comparable a los enfoques post-hoc, y que el refinamiento iterativo solo ayuda cuando está guiado por retroalimentación externa.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions, producing plausible yet factually incorrect answers. A common mitigation strategy is to provide attribution to LLM outputs. However, existing benchmarks primarily focus on simple attribution that retrieves supporting textual evidence as references. We argue that in real-world scenarios such as financial applications, attribution goes beyond reference retrieval. We introduce FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate long-form answers to complex financial questions with reliable and nuanced attributions. FinLFQA evaluates three critical aspects of attribution through human annotations: (1) supporting evidence extracted from financial reports, (2) intermediate numerical reasoning steps, and (3) domain-specific financial knowledge that informs the reasoning process. We further provide an automatic evaluation framework covering both answer quality and attribution quality. Through extensive experiments on eight LLMs across multiple attribution-generation paradigms, we find that fine-grained metrics are important to distinguish model capabilities, that end-to-end generation achieves comparable performance to post-hoc approaches, and that iterative refinement only helps when guided by external feedback.
PDF22October 9, 2025