FinLFQA: Evaluatie van Toegeschreven Tekstgeneratie door LLM's in Financiële Langlopende Vraagbeantwoording
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
October 7, 2025
Auteurs: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hallucineren vaak bij langere vragen, waarbij ze plausibele maar feitelijk onjuiste antwoorden produceren. Een veelgebruikte mitigatiestrategie is het toekennen van attributie aan de uitvoer van LLM's. Bestaande benchmarks richten zich echter voornamelijk op eenvoudige attributie die ondersteunend tekstueel bewijs als referenties ophaalt. Wij stellen dat in realistische scenario's, zoals financiële toepassingen, attributie verder gaat dan het ophalen van referenties. We introduceren FinLFQA, een benchmark die is ontworpen om het vermogen van LLM's te evalueren om langere antwoorden te genereren op complexe financiële vragen met betrouwbare en genuanceerde attributies. FinLFQA evalueert drie kritieke aspecten van attributie door middel van menselijke annotaties: (1) ondersteunend bewijs geëxtraheerd uit financiële rapporten, (2) tussenliggende numerieke redeneerstappen, en (3) domeinspecifieke financiële kennis die het redeneerproces informeert. We bieden verder een automatisch evaluatieraamwerk dat zowel de kwaliteit van het antwoord als de kwaliteit van de attributie omvat. Door uitgebreide experimenten met acht LLM's over meerdere attributie-generatieparadigma's, vinden we dat fijnmazige metrieken belangrijk zijn om modelcapaciteiten te onderscheiden, dat end-to-end generatie vergelijkbare prestaties bereikt als post-hoc benaderingen, en dat iteratieve verfijning alleen helpt wanneer deze wordt begeleid door externe feedback.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions,
producing plausible yet factually incorrect answers. A common mitigation
strategy is to provide attribution to LLM outputs. However, existing benchmarks
primarily focus on simple attribution that retrieves supporting textual
evidence as references. We argue that in real-world scenarios such as financial
applications, attribution goes beyond reference retrieval. We introduce
FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate
long-form answers to complex financial questions with reliable and nuanced
attributions. FinLFQA evaluates three critical aspects of attribution through
human annotations: (1) supporting evidence extracted from financial reports,
(2) intermediate numerical reasoning steps, and (3) domain-specific financial
knowledge that informs the reasoning process. We further provide an automatic
evaluation framework covering both answer quality and attribution quality.
Through extensive experiments on eight LLMs across multiple
attribution-generation paradigms, we find that fine-grained metrics are
important to distinguish model capabilities, that end-to-end generation
achieves comparable performance to post-hoc approaches, and that iterative
refinement only helps when guided by external feedback.