CURE-Med: Apprendimento per Rinforzo su Base Curriculare per il Ragionamento Medico Multilingue

Abstract

Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato buone prestazioni nel ragionamento matematico e di senso comune monolingue, rimangono inaffidabili per applicazioni di ragionamento medico multilingue, ostacolandone l'implementazione in contesti sanitari multilingue. Affrontiamo questo problema introducendo innanzitutto CUREMED-BENCH, un dataset multilingue di alta qualità per il ragionamento medico, composto da query di ragionamento aperte con una singola risposta verificabile, che copre tredici lingue, incluse lingue sottorappresentate come l'amarico, lo yoruba e lo swahili. Basandoci su questo dataset, proponiamo CURE-MED, un framework di reinforcement learning basato su un curriculum che integra un fine-tuning supervisionato consapevole del code-switching e l'ottimizzazione delle politiche relative ai gruppi (Group Relative Policy Optimization) per migliorare congiuntamente la correttezza logica e la stabilità linguistica. In tutte le tredici lingue, il nostro approccio supera costantemente baseline robuste e scala efficacemente, raggiungendo l'85,21% di consistenza linguistica e il 54,35% di correttezza logica con 7 miliardi di parametri, e il 94,96% di consistenza linguistica e il 70,04% di correttezza logica con 32 miliardi di parametri. Questi risultati supportano un ragionamento medico multilingue affidabile ed equo negli LLM. Il codice e il dataset sono disponibili all'indirizzo https://cure-med.github.io/

English

While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/

CURE-Med: Apprendimento per Rinforzo su Base Curriculare per il Ragionamento Medico Multilingue

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Abstract

Support