Esperar o Inesperado: QA de Longo Contexto à Prova de Falhas para FinançasExpect the Unexpected: FailSafe Long Context QA for Finance
Propomos um novo referencial financeiro de longo contexto, FailSafeQA, projetado para testar a robustez e a consciência contextual de LLMs contra seis variações nas interações de interface humana em sistemas de perguntas e respostas baseados em LLMs dentro da área financeira. Concentramo-nos em dois estudos de caso: Falha na Pergunta e Falha no Contexto. No cenário de Falha na Pergunta, perturbamos a pergunta original para variar em expertise de domínio, completude e precisão linguística. No caso de Falha no Contexto, simulamos o envio de documentos degradados, irrelevantes e vazios. Empregamos a metodologia LLM-como-Juíz com Qwen2.5-72B-Instruct e utilizamos critérios de avaliação detalhados para definir e calcular pontuações de Robustez, Fundamentação de Contexto e Conformidade para 24 modelos prontos para uso. Os resultados sugerem que, embora alguns modelos se destaquem em mitigar perturbações de entrada, eles devem equilibrar respostas robustas com a capacidade de se abster de alucinações. Notavelmente, o Palmyra-Fin-128k-Instruct, reconhecido como o modelo mais conforme, manteve um desempenho de referência sólido, mas enfrentou desafios em manter previsões robustas em 17% dos casos de teste. Por outro lado, o modelo mais robusto, OpenAI o3-mini, fabricou informações em 41% dos casos testados. Os resultados demonstram que mesmo os modelos de alto desempenho têm um espaço significativo para melhorias e destacam o papel do FailSafeQA como uma ferramenta para desenvolver LLMs otimizados para confiabilidade em aplicações financeiras. O conjunto de dados está disponível em: https://huggingface.co/datasets/Writer/FailSafeQA