Ожидайте неожиданного: FailSafe Long Context QA для финансовExpect the Unexpected: FailSafe Long Context QA for Finance
Мы предлагаем новый долгосрочный финансовый бенчмарк FailSafeQA, разработанный для проверки устойчивости и контекстоспособности LLM по шести вариациям человеко-интерфейсных взаимодействий в системах вопрос-ответ на основе LLM в финансовой сфере. Мы сосредотачиваемся на двух кейс-исследованиях: Отказ в запросе и Отказ в контексте. В сценарии Отказа в запросе мы искажаем исходный запрос для изменения уровня экспертизы домена, полноты и лингвистической точности. В случае Отказа в контексте мы симулируем загрузку ухудшенных, несвязанных и пустых документов. Мы используем методологию LLM-как-судья с Qwen2.5-72B-Instruct и применяем критерии оценки с Feinberg-Grund и Compliance для определения и расчета показателей Устойчивости, Контекстной опоры и Соответствия для 24 моделей из коробки. Результаты показывают, что хотя некоторые модели отлично справляются с устранением входных искажений, им необходимо находить баланс между устойчивым ответом и способностью воздерживаться от галлюцинаций. Особенно стоит отметить, что модель Palmyra-Fin-128k-Instruct, признанная наиболее соответствующей, сохраняла высокую базовую производительность, но столкнулась с трудностями в поддержании устойчивых прогнозов в 17% тестовых случаев. С другой стороны, наиболее устойчивая модель OpenAI o3-mini, выдумывала информацию в 41% протестированных случаев. Результаты показывают, что даже у высокопроизводительных моделей есть значительный потенциал для улучшения и подчеркивают роль FailSafeQA как инструмента для разработки LLM, оптимизированных для надежности в финансовых приложениях. Набор данных доступен по ссылке: https://huggingface.co/datasets/Writer/FailSafeQA