FinLFQA: 金融分野における長文質問応答のためのLLMの属性付きテキスト生成の評価
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
October 7, 2025
著者: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
要旨
大規模言語モデル(LLMs)は、長文形式の質問に対してしばしば虚構を生成し、もっともらしいが事実に反する回答を出力する。一般的な緩和策として、LLMの出力に帰属情報を付与することが挙げられる。しかし、既存のベンチマークは主に、支持するテキスト証拠を参照として取得する単純な帰属に焦点を当てている。我々は、金融アプリケーションなどの実世界のシナリオでは、帰属が参照取得を超えるものであると主張する。本論文では、複雑な金融質問に対して信頼性が高くニュアンスのある帰属情報を伴う長文回答を生成するLLMの能力を評価するためのベンチマーク「FinLFQA」を提案する。FinLFQAは、人間によるアノテーションを通じて、帰属の3つの重要な側面を評価する:(1)財務報告書から抽出された支持証拠、(2)中間的な数値的推論ステップ、(3)推論プロセスを支えるドメイン固有の金融知識。さらに、回答品質と帰属品質の両方をカバーする自動評価フレームワークを提供する。複数の帰属生成パラダイムにわたる8つのLLMに対する広範な実験を通じて、細粒度のメトリクスがモデルの能力を区別する上で重要であること、エンドツーエンド生成が事後アプローチと同等の性能を達成すること、および外部フィードバックに導かれた場合にのみ反復的な改善が有効であることを明らかにした。
English
Large Language Models (LLMs) frequently hallucinate to long-form questions,
producing plausible yet factually incorrect answers. A common mitigation
strategy is to provide attribution to LLM outputs. However, existing benchmarks
primarily focus on simple attribution that retrieves supporting textual
evidence as references. We argue that in real-world scenarios such as financial
applications, attribution goes beyond reference retrieval. We introduce
FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate
long-form answers to complex financial questions with reliable and nuanced
attributions. FinLFQA evaluates three critical aspects of attribution through
human annotations: (1) supporting evidence extracted from financial reports,
(2) intermediate numerical reasoning steps, and (3) domain-specific financial
knowledge that informs the reasoning process. We further provide an automatic
evaluation framework covering both answer quality and attribution quality.
Through extensive experiments on eight LLMs across multiple
attribution-generation paradigms, we find that fine-grained metrics are
important to distinguish model capabilities, that end-to-end generation
achieves comparable performance to post-hoc approaches, and that iterative
refinement only helps when guided by external feedback.