ChatPaper.aiChatPaper

CLINIC: Оценка надежности языковых моделей в здравоохранении на мультиязычных данных

CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare

December 12, 2025
Авторы: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal
cs.AI

Аннотация

Интеграция языковых моделей (ЯМ) в системы здравоохранения открывает большие перспективы для улучшения медицинских процессов и принятия решений. Однако серьезным препятствием для их практического внедрения является отсутствие надежной оценки их доверительности, особенно в условиях многоязычной медицинской практики. Существующие ЯМ в основном обучаются на языках с большими ресурсами, что делает их плохо приспособленными для обработки сложности и разнообразия медицинских запросов на языках со средними и ограниченными ресурсами, создавая значительные трудности для их развертывания в глобальных системах здравоохранения, где лингвистическое разнообразие играет ключевую роль. В данной работе мы представляем CLINIC — комплексный многоязычный бенчмарк для оценки доверительности языковых моделей в здравоохранении. CLINIC систематически тестирует ЯМ по пяти ключевым аспектам доверительности: достоверности, справедливости, безопасности, устойчивости и конфиденциальности, операционализированным через 18 разнообразных задач, охватывающих 15 языков (включая все основные континенты) и широкий спектр критически важных медицинских тем, таких как заболевания, профилактические меры, диагностические тесты, методы лечения, хирургические вмешательства и лекарственные препараты. Наше масштабное исследование показывает, что ЯМ испытывают трудности с фактической точностью, демонстрируют смещения в отношении демографических и языковых групп и уязвимы к нарушениям конфиденциальности и атакам со стороны злоумышленников. Выявляя эти недостатки, CLINIC закладывает основу для повышения глобальной доступности и безопасности ЯМ в здравоохранении для различных языков.
English
Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.
PDF32December 17, 2025