FinLFQA : Évaluation de la génération de texte attribué par les modèles de langage de grande taille dans le cadre de réponses longues à des questions financières
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
October 7, 2025
papers.authors: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) hallucinent fréquemment face à des questions complexes, produisant des réponses plausibles mais factuellement incorrectes. Une stratégie courante pour atténuer ce problème consiste à fournir une attribution aux sorties des LLMs. Cependant, les benchmarks existants se concentrent principalement sur une attribution simple qui récupère des preuves textuelles comme références. Nous soutenons que, dans des scénarios réels tels que les applications financières, l'attribution va au-delà de la récupération de références. Nous introduisons FinLFQA, un benchmark conçu pour évaluer la capacité des LLMs à générer des réponses détaillées à des questions financières complexes avec des attributions fiables et nuancées. FinLFQA évalue trois aspects critiques de l'attribution grâce à des annotations humaines : (1) les preuves extraites des rapports financiers, (2) les étapes intermédiaires de raisonnement numérique, et (3) les connaissances financières spécifiques au domaine qui éclairent le processus de raisonnement. Nous proposons également un cadre d'évaluation automatique couvrant à la fois la qualité des réponses et la qualité de l'attribution. À travers des expériences approfondies sur huit LLMs utilisant plusieurs paradigmes de génération d'attribution, nous constatons que des métriques fines sont essentielles pour distinguer les capacités des modèles, que la génération end-to-end atteint des performances comparables aux approches post-hoc, et que l'affinement itératif n'est utile que lorsqu'il est guidé par des retours externes.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions,
producing plausible yet factually incorrect answers. A common mitigation
strategy is to provide attribution to LLM outputs. However, existing benchmarks
primarily focus on simple attribution that retrieves supporting textual
evidence as references. We argue that in real-world scenarios such as financial
applications, attribution goes beyond reference retrieval. We introduce
FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate
long-form answers to complex financial questions with reliable and nuanced
attributions. FinLFQA evaluates three critical aspects of attribution through
human annotations: (1) supporting evidence extracted from financial reports,
(2) intermediate numerical reasoning steps, and (3) domain-specific financial
knowledge that informs the reasoning process. We further provide an automatic
evaluation framework covering both answer quality and attribution quality.
Through extensive experiments on eight LLMs across multiple
attribution-generation paradigms, we find that fine-grained metrics are
important to distinguish model capabilities, that end-to-end generation
achieves comparable performance to post-hoc approaches, and that iterative
refinement only helps when guided by external feedback.