ChatPaper.aiChatPaper

CLINIC: Evaluación de la Confiabilidad Multilingüe en Modelos de Lenguaje para la Atención Sanitaria

CLINIC: Evaluating Multilingual Trustworthiness in Language Models for Healthcare

December 12, 2025
Autores: Akash Ghosh, Srivarshinee Sridhar, Raghav Kaushik Ravi, Muhsin Muhsin, Sriparna Saha, Chirag Agarwal
cs.AI

Resumen

La integración de modelos de lenguaje (LM) en los sistemas de salud promete grandes avances para mejorar los flujos de trabajo médicos y la toma de decisiones. Sin embargo, una barrera crítica para su adopción en el mundo real es la falta de una evaluación confiable de su confiabilidad, especialmente en entornos de salud multilingües. Los LM existentes se entrenan predominantemente en idiomas de altos recursos, lo que los hace poco aptos para manejar la complejidad y diversidad de las consultas de salud en idiomas de recursos medios y bajos, planteando desafíos significativos para su implementación en contextos de salud global donde la diversidad lingüística es clave. En este trabajo, presentamos CLINIC, un punto de referencia multilingüe integral para evaluar la confiabilidad de los modelos de lenguaje en el ámbito de la salud. CLINIC evalúa sistemáticamente los LM en cinco dimensiones clave de la confiabilidad: veracidad, equidad, seguridad, robustez y privacidad, operacionalizadas a través de 18 tareas diversas, que abarcan 15 idiomas (cubriendo todos los continentes principales) y englobando una amplia gama de temas críticos de salud como condiciones de enfermedad, acciones preventivas, pruebas de diagnóstico, tratamientos, cirugías y medicamentos. Nuestra evaluación exhaustiva revela que los LM tienen dificultades con la exactitud factual, demuestran sesgos entre grupos demográficos y lingüísticos, y son susceptibles a violaciones de privacidad y ataques adversarios. Al destacar estas deficiencias, CLINIC sienta las bases para mejorar el alcance global y la seguridad de los LM en la atención sanitaria a través de diversos idiomas.
English
Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.
PDF32December 17, 2025