CLINIC: 医療分野における言語モデルの多言語信頼性評価
CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare
December 12, 2025
著者: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal
cs.AI
要旨
言語モデル(LM)を医療システムに統合することは、医療ワークフローと意思決定の改善において大きな可能性を秘めている。しかし、現実世界での導入における重大な障壁は、特に多言語医療環境において、その信頼性を評価する確立された方法が欠如している点である。既存のLMは主に高リソース言語で学習されており、中・低リソース言語における医療質問の複雑さと多様性に対処するには不十分である。これは、言語的多様性が鍵となるグローバルな医療現場にLMを展開する上で重大な課題をもたらす。本研究では、医療分野における言語モデルの信頼性を評価する包括的多言語ベンチマーク「CLINIC」を提案する。CLINICは、信頼性の5つの主要次元(真実性、公平性、安全性、頑健性、プライバシー)にわたり、18の多様なタスク、15言語(主要大陸を網羅)、疾患状態、予防措置、診断検査、治療、手術、薬剤など多岐にわたる重要な医療トピックを通じて、LMを体系的に比較評価する。我々の大規模な評価により、LMは事実の正確性に課題があり、人口統計学的・言語的グループ間でバイアスを示し、プライバシー侵害や敵対的攻撃に対して脆弱であることが明らかになった。これらの欠点を浮き彫りにすることで、CLINICは多様な言語にわたる医療分野でのLMのグローバルな到達範囲と安全性を向上させる基盤を築くものである。
English
Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.