Преодоление языковых барьеров в здравоохранении: исследование на примере арабских LLMs.
Bridging Language Barriers in Healthcare: A Study on Arabic LLMs
January 16, 2025
Авторы: Nada Saadi, Tathagata Raha, Clément Christophe, Marco AF Pimentel, Ronnie Rajan, Praveen K Kanithi
cs.AI
Аннотация
Данная статья исследует проблемы разработки крупных языковых моделей (LLM), способных эффективно работать как в мультиязычном контексте, так и в области медицинских знаний. Мы показываем, что простое переведение медицинских данных не гарантирует высокую производительность на клинических задачах на целевом языке. Наши эксперименты показывают, что оптимальный языковой состав обучающих данных значительно различается в зависимости от конкретных медицинских задач. Мы обнаружили, что более крупные модели с тщательно откалиброванными языковыми соотношениями достигают более высокой производительности на клинических задачах на родном языке. Более того, наши результаты подтверждают, что полагаться исключительно на тонкую настройку может быть не самым эффективным подходом для внедрения новых языковых знаний в LLM. Вместо этого могут потребоваться методы предварительного обучения, требующие больших объемов данных и вычислительных ресурсов, для достижения оптимальной производительности в мультиязычных медицинских средах. Эти результаты предоставляют ценное руководство для создания эффективных и инклюзивных медицинских ИИ-систем для разноязычных сообществ.
English
This paper investigates the challenges of developing large language models
(LLMs) proficient in both multilingual understanding and medical knowledge. We
demonstrate that simply translating medical data does not guarantee strong
performance on clinical tasks in the target language. Our experiments reveal
that the optimal language mix in training data varies significantly across
different medical tasks. We find that larger models with carefully calibrated
language ratios achieve superior performance on native-language clinical tasks.
Furthermore, our results suggest that relying solely on fine-tuning may not be
the most effective approach for incorporating new language knowledge into LLMs.
Instead, data and computationally intensive pretraining methods may still be
necessary to achieve optimal performance in multilingual medical settings.
These findings provide valuable guidance for building effective and inclusive
medical AI systems for diverse linguistic communities.Summary
AI-Generated Summary