FinLFQA: Bewertung der attributierten Textgenerierung von LLMs im Bereich der finanziellen Langform-Fragebeantwortung
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
October 7, 2025
papers.authors: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) neigen häufig dazu, bei langen Fragen zu halluzinieren und dabei plausible, aber faktisch falsche Antworten zu generieren. Eine gängige Strategie zur Minderung dieses Problems besteht darin, den Ausgaben von LLMs eine Zuschreibung (Attribution) hinzuzufügen. Bisherige Benchmarks konzentrieren sich jedoch hauptsächlich auf einfache Zuschreibungen, die unterstützende Textnachweise als Referenzen abrufen. Wir argumentieren, dass in realen Anwendungsszenarien, wie beispielsweise im Finanzbereich, Zuschreibungen über die bloße Referenzbeschaffung hinausgehen. Wir stellen FinLFQA vor, einen Benchmark, der darauf abzielt, die Fähigkeit von LLMs zu bewerten, lange Antworten auf komplexe Finanzfragen mit zuverlässigen und differenzierten Zuschreibungen zu generieren. FinLFQA bewertet drei kritische Aspekte der Zuschreibung durch menschliche Annotationen: (1) unterstützende Nachweise, die aus Finanzberichten extrahiert werden, (2) Zwischenschritte der numerischen Argumentation und (3) domänenspezifisches Finanzwissen, das den Argumentationsprozess informiert. Darüber hinaus bieten wir ein automatisches Bewertungsframework, das sowohl die Antwortqualität als auch die Qualität der Zuschreibung abdeckt. Durch umfangreiche Experimente mit acht LLMs über mehrere Zuschreibungsgenerierungs-Paradigmen hinweg stellen wir fest, dass feinkörnige Metriken wichtig sind, um die Fähigkeiten der Modelle zu unterscheiden, dass end-to-end-Generierung vergleichbare Leistungen zu nachträglichen Ansätzen erzielt und dass iterative Verbesserungen nur dann helfen, wenn sie durch externes Feedback geleitet werden.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions,
producing plausible yet factually incorrect answers. A common mitigation
strategy is to provide attribution to LLM outputs. However, existing benchmarks
primarily focus on simple attribution that retrieves supporting textual
evidence as references. We argue that in real-world scenarios such as financial
applications, attribution goes beyond reference retrieval. We introduce
FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate
long-form answers to complex financial questions with reliable and nuanced
attributions. FinLFQA evaluates three critical aspects of attribution through
human annotations: (1) supporting evidence extracted from financial reports,
(2) intermediate numerical reasoning steps, and (3) domain-specific financial
knowledge that informs the reasoning process. We further provide an automatic
evaluation framework covering both answer quality and attribution quality.
Through extensive experiments on eight LLMs across multiple
attribution-generation paradigms, we find that fine-grained metrics are
important to distinguish model capabilities, that end-to-end generation
achieves comparable performance to post-hoc approaches, and that iterative
refinement only helps when guided by external feedback.