CURE-Med: Curriculum-informiertes bestärkendes Lernen für mehrsprachiges medizinisches Denken

Zusammenfassung

Während große Sprachmodelle (LLMs) bei monolingualem mathematischem und gesundem Menschenverstand gute Leistungen zeigen, bleiben sie für mehrsprachige medizinische Anwendungen unzuverlässig, was ihren Einsatz in multilingualen Gesundheitssystemen behindert. Wir adressieren dieses Problem, indem wir zunächst CUREMED-BENCH vorstellen, einen hochwertigen, mehrsprachigen Datensatz für medizinisches Reasoning mit offenen Verständnisfragen und einer einzigen überprüfbaren Antwort, der dreizehn Sprachen abdeckt, einschließlich unterrepräsentierter Sprachen wie Amharisch, Yoruba und Swahili. Aufbauend auf diesem Datensatz schlagen wir CURE-MED vor, ein curriculum-informiertes Reinforcement-Learning-Framework, das code-switching-bewusstes supervidiertes Fine-Tuning und Group Relative Policy Optimization integriert, um logische Korrektheit und Sprachstabilität gemeinsam zu verbessern. Über dreizehn Sprachen hinweg übertrifft unser Ansatz durchgängig starke Baseline-Modelle und skaliert effektiv, wobei er bei 7B Parametern 85,21 % Sprachkonsistenz und 54,35 % logische Korrektheit sowie bei 32B Parametern 94,96 % Sprachkonsistenz und 70,04 % logische Korrektheit erreicht. Diese Ergebnisse unterstützen zuverlässiges und gerechtes mehrsprachiges medizinisches Reasoning in LLMs. Der Code und der Datensatz sind unter https://cure-med.github.io verfügbar.

English

While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/

CURE-Med: Curriculum-informiertes bestärkendes Lernen für mehrsprachiges medizinisches Denken

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Zusammenfassung

Support