Effiziente Demokratisierung von medizinischen LLMs für 50 Sprachen durch eine Mischung von Experten verschiedener Sprachfamilien.
Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts
October 14, 2024
Autoren: Guorui Zheng, Xidong Wang, Juhao Liang, Nuo Chen, Yuping Zheng, Benyou Wang
cs.AI
Zusammenfassung
Die Anpassung von medizinischen Large Language Models an lokale Sprachen kann die Zugangsbarrieren zu Gesundheitsdiensten verringern, aber Datenknappheit bleibt eine bedeutende Herausforderung, insbesondere für sprachlich ressourcenarme Sprachen. Um dies anzugehen, erstellen wir zunächst einen hochwertigen medizinischen Datensatz und führen Analysen durch, um seine Qualität sicherzustellen. Um die Generalisierungsfähigkeit von mehrsprachigen LLMs effizient auf sprachlich ressourcenärmere Sprachen auszudehnen, untersuchen wir den internen Informationsfluss von LLMs aus einer mehrsprachigen Perspektive unter Verwendung der Modulartät des Mixture of Experts (MoE). Technisch gesehen schlagen wir eine neuartige MoE-Routing-Methode vor, die sprachspezifische Experten und kreuzsprachiges Routing verwendet. Inspiriert von der Schaltungstheorie enthüllte unsere Routing-Analyse einen Informationsflussmechanismus namens Spread Out in the End: Während frühere Schichten den kreuzsprachigen Informationsfluss konzentrieren, zeigen spätere Schichten eine sprachspezifische Divergenz. Diese Erkenntnis führte direkt zur Entwicklung der Post-MoE-Architektur, die nur in den späteren Schichten eine spärliche Routenführung anwendet, während andere dicht bleiben. Experimentelle Ergebnisse zeigen, dass dieser Ansatz die Generalisierung von mehrsprachigen Modellen auf andere Sprachen verbessert, während die Interpretierbarkeit erhalten bleibt. Schließlich führen wir zur effizienten Skalierung des Modells auf 50 Sprachen das Konzept der Sprachfamilienexperten ein, das auf linguistischen Voraussetzungen beruht und es ermöglicht, die Anzahl der Sprachen ohne Hinzufügen zusätzlicher Parameter zu skalieren.
English
Adapting medical Large Language Models to local languages can reduce barriers
to accessing healthcare services, but data scarcity remains a significant
challenge, particularly for low-resource languages. To address this, we first
construct a high-quality medical dataset and conduct analysis to ensure its
quality. In order to leverage the generalization capability of multilingual
LLMs to efficiently scale to more resource-constrained languages, we explore
the internal information flow of LLMs from a multilingual perspective using
Mixture of Experts (MoE) modularity. Technically, we propose a novel MoE
routing method that employs language-specific experts and cross-lingual
routing. Inspired by circuit theory, our routing analysis revealed a Spread Out
in the End information flow mechanism: while earlier layers concentrate
cross-lingual information flow, the later layers exhibit language-specific
divergence. This insight directly led to the development of the Post-MoE
architecture, which applies sparse routing only in the later layers while
maintaining dense others. Experimental results demonstrate that this approach
enhances the generalization of multilingual models to other languages while
preserving interpretability. Finally, to efficiently scale the model to 50
languages, we introduce the concept of language family experts, drawing on
linguistic priors, which enables scaling the number of languages without adding
additional parameters.Summary
AI-Generated Summary