ChatPaper.aiChatPaper

FinLFQA: Evaluatie van Toegeschreven Tekstgeneratie door LLM's in Financiële Langlopende Vraagbeantwoording

FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering

October 7, 2025
Auteurs: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hallucineren vaak bij langere vragen, waarbij ze plausibele maar feitelijk onjuiste antwoorden produceren. Een veelgebruikte mitigatiestrategie is het toekennen van attributie aan de uitvoer van LLM's. Bestaande benchmarks richten zich echter voornamelijk op eenvoudige attributie die ondersteunend tekstueel bewijs als referenties ophaalt. Wij stellen dat in realistische scenario's, zoals financiële toepassingen, attributie verder gaat dan het ophalen van referenties. We introduceren FinLFQA, een benchmark die is ontworpen om het vermogen van LLM's te evalueren om langere antwoorden te genereren op complexe financiële vragen met betrouwbare en genuanceerde attributies. FinLFQA evalueert drie kritieke aspecten van attributie door middel van menselijke annotaties: (1) ondersteunend bewijs geëxtraheerd uit financiële rapporten, (2) tussenliggende numerieke redeneerstappen, en (3) domeinspecifieke financiële kennis die het redeneerproces informeert. We bieden verder een automatisch evaluatieraamwerk dat zowel de kwaliteit van het antwoord als de kwaliteit van de attributie omvat. Door uitgebreide experimenten met acht LLM's over meerdere attributie-generatieparadigma's, vinden we dat fijnmazige metrieken belangrijk zijn om modelcapaciteiten te onderscheiden, dat end-to-end generatie vergelijkbare prestaties bereikt als post-hoc benaderingen, en dat iteratieve verfijning alleen helpt wanneer deze wordt begeleid door externe feedback.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions, producing plausible yet factually incorrect answers. A common mitigation strategy is to provide attribution to LLM outputs. However, existing benchmarks primarily focus on simple attribution that retrieves supporting textual evidence as references. We argue that in real-world scenarios such as financial applications, attribution goes beyond reference retrieval. We introduce FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate long-form answers to complex financial questions with reliable and nuanced attributions. FinLFQA evaluates three critical aspects of attribution through human annotations: (1) supporting evidence extracted from financial reports, (2) intermediate numerical reasoning steps, and (3) domain-specific financial knowledge that informs the reasoning process. We further provide an automatic evaluation framework covering both answer quality and attribution quality. Through extensive experiments on eight LLMs across multiple attribution-generation paradigms, we find that fine-grained metrics are important to distinguish model capabilities, that end-to-end generation achieves comparable performance to post-hoc approaches, and that iterative refinement only helps when guided by external feedback.
PDF22October 9, 2025