CLINIC: Avaliando a Confiabilidade Multilíngue em Modelos de Linguagem para a Saúde

Resumo

A integração de modelos de linguagem (MLs) em sistemas de saúde tem grande potencial para melhorar os fluxos de trabalho médicos e a tomada de decisões. No entanto, uma barreira crítica para a sua adoção no mundo real é a falta de uma avaliação confiável da sua confiabilidade, especialmente em contextos de saúde multilíngues. Os MLs existentes são predominantemente treinados em idiomas de alto recurso, o que os torna mal preparados para lidar com a complexidade e a diversidade de consultas de saúde em idiomas de recursos médios e baixos, representando desafios significativos para a sua implantação em contextos globais de saúde, onde a diversidade linguística é fundamental. Neste trabalho, apresentamos o CLINIC, um Benchmark Multilíngue Abrangente para avaliar a confiabilidade dos modelos de linguagem na área da saúde. O CLINIC avalia sistematicamente os MLs em cinco dimensões-chave de confiabilidade: veracidade, imparcialidade, segurança, robustez e privacidade, operacionalizadas por meio de 18 tarefas diversas, abrangendo 15 idiomas (cobrindo todos os continentes principais) e englobando uma ampla gama de tópicos críticos de saúde, como condições de doenças, ações preventivas, testes diagnósticos, tratamentos, cirurgias e medicamentos. Nossa avaliação extensiva revela que os MLs lutam com a correção factual, demonstram viés entre grupos demográficos e linguísticos e são suscetíveis a violações de privacidade e a ataques adversariais. Ao destacar essas deficiências, o CLINIC estabelece as bases para melhorar o alcance global e a segurança dos MLs na saúde em diversos idiomas.

English

Integrating language models (LMs) in healthcare systems holds great promise for improving medical workflows and decision-making. However, a critical barrier to their real-world adoption is the lack of reliable evaluation of their trustworthiness, especially in multilingual healthcare settings. Existing LMs are predominantly trained in high-resource languages, making them ill-equipped to handle the complexity and diversity of healthcare queries in mid- and low-resource languages, posing significant challenges for deploying them in global healthcare contexts where linguistic diversity is key. In this work, we present CLINIC, a Comprehensive Multilingual Benchmark to evaluate the trustworthiness of language models in healthcare. CLINIC systematically benchmarks LMs across five key dimensions of trustworthiness: truthfulness, fairness, safety, robustness, and privacy, operationalized through 18 diverse tasks, spanning 15 languages (covering all the major continents), and encompassing a wide array of critical healthcare topics like disease conditions, preventive actions, diagnostic tests, treatments, surgeries, and medications. Our extensive evaluation reveals that LMs struggle with factual correctness, demonstrate bias across demographic and linguistic groups, and are susceptible to privacy breaches and adversarial attacks. By highlighting these shortcomings, CLINIC lays the foundation for enhancing the global reach and safety of LMs in healthcare across diverse languages.