ChatPaper.aiChatPaper

CLINIC : Évaluation de la confiance multilingue dans les modèles de langage pour la santé

CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare

December 12, 2025
papers.authors: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal
cs.AI

papers.abstract

L'intégration des modèles de langage (LM) dans les systèmes de santé présente un potentiel considérable pour améliorer les flux de travail médicaux et la prise de décision. Cependant, un obstacle majeur à leur adoption réelle est l'absence d'évaluation fiable de leur fiabilité, particulièrement dans les contextes de soins multilingues. Les modèles de langage existants étant principalement entraînés sur des langues riches en ressources, ils sont mal adaptés pour gérer la complexité et la diversité des requêtes en santé dans les langues à ressources moyennes et faibles, ce qui pose des défis significatifs pour leur déploiement dans des contextes sanitaires mondiaux où la diversité linguistique est primordiale. Dans ce travail, nous présentons CLINIC, un benchmark multilingue complet pour évaluer la fiabilité des modèles de langage en santé. CLINIC évalue systématiquement les LM selon cinq dimensions clés de la fiabilité : la véracité, l'équité, la sécurité, la robustesse et la confidentialité, opérationnalisées à travers 18 tâches variées, couvrant 15 langues (représentant tous les continents majeurs) et englobant un large éventail de sujets critiques en santé tels que les pathologies, les actions préventives, les tests diagnostiques, les traitements, les chirurgies et les médicaments. Notre évaluation approfondie révèle que les LM peinent avec l'exactitude factuelle, présentent des biais à travers les groupes démographiques et linguistiques, et sont vulnérables aux violations de la vie privée et aux attaques adverses. En mettant en lumière ces lacunes, CLINIC jette les bases pour améliorer la portée mondiale et la sécurité des LM en santé à travers la diversité des langues.
English
Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.
PDF32December 17, 2025