CURE-Med : Apprentissage par Renforcement Guidé par un Curriculum pour le Raisonnement Médical Multilingue

Résumé

Bien que les grands modèles de langage (LLM) aient démontré de bonnes performances en raisonnement mathématique et de bon sens monolingues, ils restent peu fiables pour les applications de raisonnement médical multilingue, ce qui entrave leur déploiement dans les contextes de soins de santé multilingues. Nous abordons ce problème en introduisant d'abord CUREMED-BENCH, un jeu de données multilingue de haute qualité pour le raisonnement médical, comprenant des requêtes de raisonnement à réponse ouverte avec une seule réponse vérifiable, couvrant treize langues, y compris des langues sous-représentées telles que l'amharique, le yoruba et le swahili. En s'appuyant sur ce jeu de données, nous proposons CURE-MED, un cadre d'apprentissage par renforcement informé par un curriculum qui intègre un fine-tuning supervisé sensible au code-switching et une optimisation de politique relative au groupe pour améliorer conjointement la justesse logique et la stabilité linguistique. Sur treize langues, notre approche surpasse constamment les bases de référence solides et s'adapte efficacement, atteignant 85,21 % de cohérence linguistique et 54,35 % de justesse logique à 7 milliards de paramètres, et 94,96 % de cohérence linguistique et 70,04 % de justesse logique à 32 milliards de paramètres. Ces résultats soutiennent un raisonnement médical multilingue fiable et équitable dans les LLM. Le code et le jeu de données sont disponibles à l'adresse https://cure-med.github.io/

English

While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/

CURE-Med : Apprentissage par Renforcement Guidé par un Curriculum pour le Raisonnement Médical Multilingue

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Résumé

Support