ChatPaper.aiChatPaper

CLINIC: Bewertung der multilingualen Vertrauenswürdigkeit von Sprachmodellen im Gesundheitswesen

CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare

December 12, 2025
papers.authors: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal
cs.AI

papers.abstract

Die Integration von Sprachmodellen (LMs) in Gesundheitssysteme birgt großes Potenzial zur Verbesserung medizinischer Arbeitsabläufe und Entscheidungsfindung. Ein entscheidendes Hindernis für ihre praktische Anwendung ist jedoch der Mangel an zuverlässiger Bewertung ihrer Vertrauenswürdigkeit, insbesondere in mehrsprachigen Gesundheitskontexten. Bestehende Sprachmodelle werden überwiegend in Hochressourcensprachen trainiert, was sie ungeeignet macht, die Komplexität und Vielfalt von Gesundheitsanfragen in Mittel- und Niedrigressourcensprachen zu bewältigen. Dies stellt erhebliche Herausforderungen für ihren Einsatz in globalen Gesundheitssystemen dar, in denen sprachliche Diversität entscheidend ist. In dieser Arbeit stellen wir CLINIC vor, einen umfassenden mehrsprachigen Benchmark zur Bewertung der Vertrauenswürdigkeit von Sprachmodellen im Gesundheitswesen. CLINIC evaluiert Sprachmodelle systematisch in fünf Schlüsseldimensionen der Vertrauenswürdigkeit: Wahrhaftigkeit, Fairness, Sicherheit, Robustheit und Privatsphäre. Diese werden durch 18 verschiedene Aufgaben operationalisiert, die 15 Sprachen (unter Einbeziehung aller großen Kontinente) abdecken und ein breites Spektrum kritischer Gesundheitsthemen wie Krankheitsbilder, Präventionsmaßnahmen, Diagnosetests, Behandlungen, Operationen und Medikation umfassen. Unsere umfangreiche Auswertung zeigt, dass Sprachmodelle mit faktischer Korrektheit kämpfen, Verzerrungen über demografische und linguistische Gruppen hinweg aufweisen und anfällig für Datenschutzverletzungen und adversariale Angriffe sind. Indem CLINIC diese Mängel aufzeigt, legt es die Grundlage für die Verbesserung der globalen Reichweite und Sicherheit von Sprachmodellen im Gesundheitswesen über verschiedene Sprachen hinweg.
English
Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.
PDF32December 17, 2025