ChatPaper.aiChatPaper

Effiziente Demokratisierung von medizinischen LLMs für 50 Sprachen durch eine Mischung von Experten verschiedener Sprachfamilien.

Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts

October 14, 2024
Autoren: Guorui Zheng, Xidong Wang, Juhao Liang, Nuo Chen, Yuping Zheng, Benyou Wang
cs.AI

Zusammenfassung

Die Anpassung von medizinischen Large Language Models an lokale Sprachen kann die Zugangsbarrieren zu Gesundheitsdiensten verringern, aber Datenknappheit bleibt eine bedeutende Herausforderung, insbesondere für sprachlich ressourcenarme Sprachen. Um dies anzugehen, erstellen wir zunächst einen hochwertigen medizinischen Datensatz und führen Analysen durch, um seine Qualität sicherzustellen. Um die Generalisierungsfähigkeit von mehrsprachigen LLMs effizient auf sprachlich ressourcenärmere Sprachen auszudehnen, untersuchen wir den internen Informationsfluss von LLMs aus einer mehrsprachigen Perspektive unter Verwendung der Modulartät des Mixture of Experts (MoE). Technisch gesehen schlagen wir eine neuartige MoE-Routing-Methode vor, die sprachspezifische Experten und kreuzsprachiges Routing verwendet. Inspiriert von der Schaltungstheorie enthüllte unsere Routing-Analyse einen Informationsflussmechanismus namens Spread Out in the End: Während frühere Schichten den kreuzsprachigen Informationsfluss konzentrieren, zeigen spätere Schichten eine sprachspezifische Divergenz. Diese Erkenntnis führte direkt zur Entwicklung der Post-MoE-Architektur, die nur in den späteren Schichten eine spärliche Routenführung anwendet, während andere dicht bleiben. Experimentelle Ergebnisse zeigen, dass dieser Ansatz die Generalisierung von mehrsprachigen Modellen auf andere Sprachen verbessert, während die Interpretierbarkeit erhalten bleibt. Schließlich führen wir zur effizienten Skalierung des Modells auf 50 Sprachen das Konzept der Sprachfamilienexperten ein, das auf linguistischen Voraussetzungen beruht und es ermöglicht, die Anzahl der Sprachen ohne Hinzufügen zusätzlicher Parameter zu skalieren.
English
Adapting medical Large Language Models to local languages can reduce barriers to accessing healthcare services, but data scarcity remains a significant challenge, particularly for low-resource languages. To address this, we first construct a high-quality medical dataset and conduct analysis to ensure its quality. In order to leverage the generalization capability of multilingual LLMs to efficiently scale to more resource-constrained languages, we explore the internal information flow of LLMs from a multilingual perspective using Mixture of Experts (MoE) modularity. Technically, we propose a novel MoE routing method that employs language-specific experts and cross-lingual routing. Inspired by circuit theory, our routing analysis revealed a Spread Out in the End information flow mechanism: while earlier layers concentrate cross-lingual information flow, the later layers exhibit language-specific divergence. This insight directly led to the development of the Post-MoE architecture, which applies sparse routing only in the later layers while maintaining dense others. Experimental results demonstrate that this approach enhances the generalization of multilingual models to other languages while preserving interpretability. Finally, to efficiently scale the model to 50 languages, we introduce the concept of language family experts, drawing on linguistic priors, which enables scaling the number of languages without adding additional parameters.

Summary

AI-Generated Summary

PDF402November 16, 2024