FinLFQA: Оценка генерации атрибутированного текста языковых моделей в финансовой области при ответах на вопросы в длинной форме
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
October 7, 2025
Авторы: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
Аннотация
Крупные языковые модели (LLM) часто "галлюцинируют" при ответах на сложные вопросы, создавая правдоподобные, но фактически неверные ответы. Распространённой стратегией для снижения этой проблемы является предоставление атрибуции выходным данным LLM. Однако существующие бенчмарки в основном сосредоточены на простой атрибуции, которая извлекает поддерживающие текстовые доказательства в качестве ссылок. Мы утверждаем, что в реальных сценариях, таких как финансовые приложения, атрибуция выходит за рамки извлечения ссылок. Мы представляем FinLFQA — бенчмарк, разработанный для оценки способности LLM генерировать развёрнутые ответы на сложные финансовые вопросы с надёжной и детализированной атрибуцией. FinLFQA оценивает три критических аспекта атрибуции с помощью аннотаций, выполненных людьми: (1) поддерживающие доказательства, извлечённые из финансовых отчётов, (2) промежуточные шаги численного рассуждения и (3) специализированные финансовые знания, которые информируют процесс рассуждения. Мы также предоставляем автоматизированную систему оценки, охватывающую как качество ответов, так и качество атрибуции. В ходе масштабных экспериментов с восемью LLM в рамках нескольких парадигм генерации атрибуции мы обнаружили, что детализированные метрики важны для различения возможностей моделей, что сквозная генерация достигает сопоставимой производительности с постобработкой и что итеративное уточнение помогает только при наличии внешней обратной связи.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions,
producing plausible yet factually incorrect answers. A common mitigation
strategy is to provide attribution to LLM outputs. However, existing benchmarks
primarily focus on simple attribution that retrieves supporting textual
evidence as references. We argue that in real-world scenarios such as financial
applications, attribution goes beyond reference retrieval. We introduce
FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate
long-form answers to complex financial questions with reliable and nuanced
attributions. FinLFQA evaluates three critical aspects of attribution through
human annotations: (1) supporting evidence extracted from financial reports,
(2) intermediate numerical reasoning steps, and (3) domain-specific financial
knowledge that informs the reasoning process. We further provide an automatic
evaluation framework covering both answer quality and attribution quality.
Through extensive experiments on eight LLMs across multiple
attribution-generation paradigms, we find that fine-grained metrics are
important to distinguish model capabilities, that end-to-end generation
achieves comparable performance to post-hoc approaches, and that iterative
refinement only helps when guided by external feedback.