ChatPaper.aiChatPaper

CLINIC: Valutazione dell'Affidabilità Multilingue nei Modelli Linguistici per l'Assistenza Sanitaria

CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare

December 12, 2025
Autori: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal
cs.AI

Abstract

L'integrazione di modelli linguistici (LM) nei sistemi sanitari promette notevoli miglioramenti nei flussi di lavoro medici e nei processi decisionali. Tuttavia, una barriera critica per la loro adozione nel mondo reale è la mancanza di una valutazione affidabile della loro attendibilità, specialmente in contesti sanitari multilingue. Gli LM esistenti sono addestrati prevalentemente su lingue ad alte risorse, il che li rende impreparati a gestire la complessità e la diversità delle richieste sanitarie in lingue a risorse medie e scarse, ponendo sfide significative per il loro dispiegamento in contesti sanitari globali dove la diversità linguistica è cruciale. In questo lavoro, presentiamo CLINIC, un benchmark multilingue completo per valutare l'affidabilità dei modelli linguistici in ambito sanitario. CLINIC analizza sistematicamente gli LM lungo cinque dimensioni chiave dell'affidabilità: veridicità, equità, sicurezza, robustezza e privacy, operazionalizzate attraverso 18 compiti diversi, che coprono 15 lingue (abbracciando tutti i continenti principali) e comprendono una vasta gamma di argomenti sanitari critici come condizioni patologiche, azioni preventive, test diagnostici, trattamenti, interventi chirurgici e farmaci. La nostra valutazione estensiva rivela che gli LM hanno difficoltà con la correttezza fattuale, dimostrano pregiudizi tra gruppi demografici e linguistici, e sono suscettibili a violazioni della privacy e ad attacchi avversari. Mettendo in luce queste carenze, CLINIC getta le basi per potenziare la portata globale e la sicurezza degli LM in ambito sanitario attraverso le diverse lingue.
English
Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.
PDF32December 17, 2025