ChatPaper.aiChatPaper

FinLFQA: 金融分野における長文質問応答のためのLLMの属性付きテキスト生成の評価

FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering

October 7, 2025
著者: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI

要旨

大規模言語モデル(LLMs)は、長文形式の質問に対してしばしば虚構を生成し、もっともらしいが事実に反する回答を出力する。一般的な緩和策として、LLMの出力に帰属情報を付与することが挙げられる。しかし、既存のベンチマークは主に、支持するテキスト証拠を参照として取得する単純な帰属に焦点を当てている。我々は、金融アプリケーションなどの実世界のシナリオでは、帰属が参照取得を超えるものであると主張する。本論文では、複雑な金融質問に対して信頼性が高くニュアンスのある帰属情報を伴う長文回答を生成するLLMの能力を評価するためのベンチマーク「FinLFQA」を提案する。FinLFQAは、人間によるアノテーションを通じて、帰属の3つの重要な側面を評価する:(1)財務報告書から抽出された支持証拠、(2)中間的な数値的推論ステップ、(3)推論プロセスを支えるドメイン固有の金融知識。さらに、回答品質と帰属品質の両方をカバーする自動評価フレームワークを提供する。複数の帰属生成パラダイムにわたる8つのLLMに対する広範な実験を通じて、細粒度のメトリクスがモデルの能力を区別する上で重要であること、エンドツーエンド生成が事後アプローチと同等の性能を達成すること、および外部フィードバックに導かれた場合にのみ反復的な改善が有効であることを明らかにした。
English
Large Language Models (LLMs) frequently hallucinate to long-form questions, producing plausible yet factually incorrect answers. A common mitigation strategy is to provide attribution to LLM outputs. However, existing benchmarks primarily focus on simple attribution that retrieves supporting textual evidence as references. We argue that in real-world scenarios such as financial applications, attribution goes beyond reference retrieval. We introduce FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate long-form answers to complex financial questions with reliable and nuanced attributions. FinLFQA evaluates three critical aspects of attribution through human annotations: (1) supporting evidence extracted from financial reports, (2) intermediate numerical reasoning steps, and (3) domain-specific financial knowledge that informs the reasoning process. We further provide an automatic evaluation framework covering both answer quality and attribution quality. Through extensive experiments on eight LLMs across multiple attribution-generation paradigms, we find that fine-grained metrics are important to distinguish model capabilities, that end-to-end generation achieves comparable performance to post-hoc approaches, and that iterative refinement only helps when guided by external feedback.
PDF22October 9, 2025