Superando barreras idiomáticas en la atención médica: un estudio sobre LLMs en árabe
Bridging Language Barriers in Healthcare: A Study on Arabic LLMs
January 16, 2025
Autores: Nada Saadi, Tathagata Raha, Clément Christophe, Marco AF Pimentel, Ronnie Rajan, Praveen K Kanithi
cs.AI
Resumen
Este documento investiga los desafíos de desarrollar grandes modelos de lenguaje (LLMs) competentes tanto en comprensión multilingüe como en conocimiento médico. Demostramos que simplemente traducir datos médicos no garantiza un rendimiento sólido en tareas clínicas en el idioma objetivo. Nuestros experimentos revelan que la combinación óptima de idiomas en los datos de entrenamiento varía significativamente entre diferentes tareas médicas. Descubrimos que modelos más grandes con proporciones de idiomas cuidadosamente calibradas logran un rendimiento superior en tareas clínicas en el idioma nativo. Además, nuestros resultados sugieren que depender únicamente de la puesta a punto fina puede no ser el enfoque más efectivo para incorporar nuevos conocimientos lingüísticos en los LLMs. En su lugar, métodos de preentrenamiento intensivos en datos y computacionalmente pueden seguir siendo necesarios para lograr un rendimiento óptimo en entornos médicos multilingües. Estos hallazgos ofrecen orientación valiosa para construir sistemas de IA médica efectivos e inclusivos para diversas comunidades lingüísticas.
English
This paper investigates the challenges of developing large language models
(LLMs) proficient in both multilingual understanding and medical knowledge. We
demonstrate that simply translating medical data does not guarantee strong
performance on clinical tasks in the target language. Our experiments reveal
that the optimal language mix in training data varies significantly across
different medical tasks. We find that larger models with carefully calibrated
language ratios achieve superior performance on native-language clinical tasks.
Furthermore, our results suggest that relying solely on fine-tuning may not be
the most effective approach for incorporating new language knowledge into LLMs.
Instead, data and computationally intensive pretraining methods may still be
necessary to achieve optimal performance in multilingual medical settings.
These findings provide valuable guidance for building effective and inclusive
medical AI systems for diverse linguistic communities.Summary
AI-Generated Summary