FinLFQA: Valutazione della Generazione di Testi Attribuiti nei Modelli Linguistici di Grandi Dimensioni per il Rispondere a Domande Lunghe in Ambito Finanziario
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
October 7, 2025
Autori: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
Abstract
I Large Language Model (LLM) spesso producono allucinazioni in risposta a domande complesse, generando risposte plausibili ma fattualmente errate. Una strategia comune di mitigazione consiste nel fornire attribuzioni agli output dei LLM. Tuttavia, i benchmark esistenti si concentrano principalmente su attribuzioni semplici che recuperano prove testuali di supporto come riferimenti. Sosteniamo che, in scenari reali come le applicazioni finanziarie, l'attribuzione va oltre il semplice recupero di riferimenti. Introduciamo FinLFQA, un benchmark progettato per valutare la capacità dei LLM di generare risposte lunghe e complesse a domande finanziarie con attribuzioni affidabili e sfumate. FinLFQA valuta tre aspetti critici dell'attribuzione attraverso annotazioni umane: (1) prove di supporto estratte dai rapporti finanziari, (2) passaggi intermedi di ragionamento numerico e (3) conoscenze finanziarie specifiche del dominio che informano il processo di ragionamento. Forniamo inoltre un framework di valutazione automatica che copre sia la qualità delle risposte che la qualità delle attribuzioni. Attraverso esperimenti estesi su otto LLM in diversi paradigmi di generazione delle attribuzioni, scopriamo che metriche granulari sono importanti per distinguere le capacità dei modelli, che la generazione end-to-end raggiunge prestazioni comparabili agli approcci post-hoc e che il perfezionamento iterativo è utile solo quando guidato da feedback esterni.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions,
producing plausible yet factually incorrect answers. A common mitigation
strategy is to provide attribution to LLM outputs. However, existing benchmarks
primarily focus on simple attribution that retrieves supporting textual
evidence as references. We argue that in real-world scenarios such as financial
applications, attribution goes beyond reference retrieval. We introduce
FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate
long-form answers to complex financial questions with reliable and nuanced
attributions. FinLFQA evaluates three critical aspects of attribution through
human annotations: (1) supporting evidence extracted from financial reports,
(2) intermediate numerical reasoning steps, and (3) domain-specific financial
knowledge that informs the reasoning process. We further provide an automatic
evaluation framework covering both answer quality and attribution quality.
Through extensive experiments on eight LLMs across multiple
attribution-generation paradigms, we find that fine-grained metrics are
important to distinguish model capabilities, that end-to-end generation
achieves comparable performance to post-hoc approaches, and that iterative
refinement only helps when guided by external feedback.