Здоровые языковые модели? Оценка знаний языковых моделей о публичной информации в области здравоохранения правительства Великобритании

Аннотация

По мере того как крупные языковые модели (LLM) становятся широко доступными, детальное понимание их знаний в конкретных областях становится необходимым для успешного применения в реальном мире. Это особенно важно в сфере общественного здравоохранения, где невозможность извлечения актуальной, точной и современной информации может существенно повлиять на жителей Великобритании. Однако в настоящее время мало что известно о знаниях LLM в отношении информации о государственном здравоохранении Великобритании. Для решения этой проблемы в данной статье представлен новый эталонный тест PubHealthBench, содержащий более 8000 вопросов для оценки способности LLM отвечать на вопросы с множественным выбором (MCQA) и давать свободные ответы на запросы, связанные с общественным здравоохранением, созданный с использованием автоматизированного процесса. Мы также публикуем новый набор данных, включающий извлеченные документы руководств по общественному здравоохранению правительства Великобритании, которые использовались в качестве исходного текста для PubHealthBench. Оценивая 24 LLM на основе PubHealthBench, мы обнаружили, что последние частные LLM (GPT-4.5, GPT-4.1 и o1) обладают высоким уровнем знаний, достигая более 90% в тесте MCQA, и превосходят людей, использующих поверхностный поиск в интернете. Однако в тесте с свободными ответами наблюдаются более низкие результаты, причем ни одна модель не набрала более 75%. Таким образом, хотя есть обнадеживающие признаки того, что современные LLM становятся все более точным источником информации в области общественного здравоохранения, дополнительные меры предосторожности или инструменты могут все еще быть необходимы при предоставлении свободных ответов на темы, связанные с общественным здравоохранением.

English

As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.

Здоровые языковые модели? Оценка знаний языковых моделей о публичной информации в области здравоохранения правительства Великобритании

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Аннотация

Support