ChatPaper.aiChatPaper

FinLFQA: Avaliação da Geração de Texto Atribuído de LLMs em Respostas Longas a Perguntas Financeiras

FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering

October 7, 2025
Autores: Yitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) frequentemente alucinam em respostas a perguntas de formato longo, produzindo respostas plausíveis, mas factualmente incorretas. Uma estratégia comum de mitigação é fornecer atribuição às saídas dos LLMs. No entanto, benchmarks existentes focam principalmente em atribuições simples que recuperam evidências textuais de suporte como referências. Argumentamos que, em cenários do mundo real, como aplicações financeiras, a atribuição vai além da recuperação de referências. Introduzimos o FinLFQA, um benchmark projetado para avaliar a capacidade dos LLMs de gerar respostas de formato longo para perguntas financeiras complexas com atribuições confiáveis e detalhadas. O FinLFQA avalia três aspectos críticos da atribuição por meio de anotações humanas: (1) evidências de suporte extraídas de relatórios financeiros, (2) etapas intermediárias de raciocínio numérico e (3) conhecimento financeiro específico do domínio que informa o processo de raciocínio. Além disso, fornecemos um framework de avaliação automática que cobre tanto a qualidade da resposta quanto a qualidade da atribuição. Por meio de experimentos extensos em oito LLMs em múltiplos paradigmas de geração de atribuição, descobrimos que métricas refinadas são importantes para distinguir as capacidades dos modelos, que a geração end-to-end alcança desempenho comparável às abordagens pós-hoc, e que o refinamento iterativo só ajuda quando guiado por feedback externo.
English
Large Language Models (LLMs) frequently hallucinate to long-form questions, producing plausible yet factually incorrect answers. A common mitigation strategy is to provide attribution to LLM outputs. However, existing benchmarks primarily focus on simple attribution that retrieves supporting textual evidence as references. We argue that in real-world scenarios such as financial applications, attribution goes beyond reference retrieval. We introduce FinLFQA, a benchmark designed to evaluate the ability of LLMs to generate long-form answers to complex financial questions with reliable and nuanced attributions. FinLFQA evaluates three critical aspects of attribution through human annotations: (1) supporting evidence extracted from financial reports, (2) intermediate numerical reasoning steps, and (3) domain-specific financial knowledge that informs the reasoning process. We further provide an automatic evaluation framework covering both answer quality and attribution quality. Through extensive experiments on eight LLMs across multiple attribution-generation paradigms, we find that fine-grained metrics are important to distinguish model capabilities, that end-to-end generation achieves comparable performance to post-hoc approaches, and that iterative refinement only helps when guided by external feedback.
PDF22October 9, 2025