FinLFQA: Оценка генерации атрибутированного текста языковых моделей в финансовой области при ответах на вопросы в длинной форме

Аннотация

Крупные языковые модели (LLM) часто "галлюцинируют" при ответах на сложные вопросы, создавая правдоподобные, но фактически неверные ответы. Распространённой стратегией для снижения этой проблемы является предоставление атрибуции выходным данным LLM. Однако существующие бенчмарки в основном сосредоточены на простой атрибуции, которая извлекает поддерживающие текстовые доказательства в качестве ссылок. Мы утверждаем, что в реальных сценариях, таких как финансовые приложения, атрибуция выходит за рамки извлечения ссылок. Мы представляем FinLFQA — бенчмарк, разработанный для оценки способности LLM генерировать развёрнутые ответы на сложные финансовые вопросы с надёжной и детализированной атрибуцией. FinLFQA оценивает три критических аспекта атрибуции с помощью аннотаций, выполненных людьми: (1) поддерживающие доказательства, извлечённые из финансовых отчётов, (2) промежуточные шаги численного рассуждения и (3) специализированные финансовые знания, которые информируют процесс рассуждения. Мы также предоставляем автоматизированную систему оценки, охватывающую как качество ответов, так и качество атрибуции. В ходе масштабных экспериментов с восемью LLM в рамках нескольких парадигм генерации атрибуции мы обнаружили, что детализированные метрики важны для различения возможностей моделей, что сквозная генерация достигает сопоставимой производительности с постобработкой и что итеративное уточнение помогает только при наличии внешней обратной связи.

English

Large Language Models (LLMs) frequently hallucinate to long-form questions, producing plausible yet factually incorrect answers. A common mitigation strategy is to provide attribution to LLM outputs. However, existing benchmarks primarily focus on simple attribution that retrieves supporting textual evidence as references. We argue that in real-world scenarios such as financial applications, attribution goes beyond reference retrieval. We introduce FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate long-form answers to complex financial questions with reliable and nuanced attributions. FinLFQA evaluates three critical aspects of attribution through human annotations: (1) supporting evidence extracted from financial reports, (2) intermediate numerical reasoning steps, and (3) domain-specific financial knowledge that informs the reasoning process. We further provide an automatic evaluation framework covering both answer quality and attribution quality. Through extensive experiments on eight LLMs across multiple attribution-generation paradigms, we find that fine-grained metrics are important to distinguish model capabilities, that end-to-end generation achieves comparable performance to post-hoc approaches, and that iterative refinement only helps when guided by external feedback.

FinLFQA: Оценка генерации атрибутированного текста языковых моделей в финансовой области при ответах на вопросы в длинной форме

FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering

Аннотация

Support