ChatPaper.aiChatPaper

CLINIC: 의료 분야 언어 모델의 다국어 신뢰도 평가

CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare

December 12, 2025
저자: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal
cs.AI

초록

언어 모델(LM)을 의료 시스템에 통합하면 의료 업무 흐름과 의사 결정 개선에 큰 기대를 걸 수 있습니다. 그러나 실제 현장 적용에 대한 중요한 장벽은 특히 다국어 의료 환경에서 이들의 신뢰성을 신뢰할 수 있게 평가하지 못한다는 점입니다. 기존 LM은 주로 고자원 언어로 훈련되어 중·저자원 언어로 된 의료 문의의 복잡성과 다양성을 처리하는 데 적합하지 않아, 언어적 다양성이 핵심인 글로벌 의료 환경에 LM을 배포하는 데 상당한 과제를 제기합니다. 본 연구에서는 의료 분야 언어 모델의 신뢰성을 평가하기 위한 포괄적 다국어 벤치마크인 CLINIC을 소개합니다. CLINIC은 진실성, 공정성, 안전성, 강건성, 개인정보 보호라는 신뢰성의 5가지 핵심 차원에 걸쳐 LM을 체계적으로 벤치마킹하며, 15개 언어(모든 주요 대륙 포함)에 걸친 18가지 다양한 과제를 통해 운영되고, 질병 상태, 예방 조치, 진단 검사, 치료, 수술, 약물 등 광범위한 핵심 의료 주제를 포괄합니다. 우리의 포괄적 평가 결과, LM은 사실적 정확성에 어려움을 겪으며, 인구통계학적 및 언어적 그룹 간 편향을 보이고, 개인정보 침해 및 적대적 공격에 취약한 것으로 나타났습니다. 이러한 단점을 부각시킴으로써 CLINIC은 다양한 언어를 아우르는 의료 분야 LM의 글로벌 확산과 안전성 강화를 위한 기반을 마련합니다.
English
Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.
PDF32December 17, 2025