CURE-Med: Curriculum-geïnformeerde reinforcement learning voor meertalig medisch redeneren

Samenvatting

Hoewel grote taalmodellen (LLM's) goede prestaties leveren op het gebied van eentalig wiskundig en gezond-verstand-redeneren, blijven ze onbetrouwbaar voor meertalige medische redeneertoepassingen, wat hun inzet in meertalige gezondheidszorgomgevingen belemmert. Wij pakken dit aan door eerst CUREMED-BENCH te introduceren, een hoogwaardige meertalige dataset voor medisch redeneren met open redeneervragen met een enkel verifieerbaar antwoord, die dertien talen omvat, waaronder ondervertegenwoordigde talen zoals Amhaars, Yoruba en Swahili. Voortbouwend op deze dataset stellen we CURE-MED voor, een curriculum-geïnformeerd reinforcement learning-raamwerk dat code-switching-bewuste supervised fine-tuning en Group Relative Policy Optimization integreert om zowel de logische correctheid als de taalstabiliteit gezamenlijk te verbeteren. Over dertien talen heen presteert onze aanpak consistent beter dan sterke baselinemodellen en schaalt effectief, met een bereik van 85,21% taalconsistentie en 54,35% logische correctheid bij 7B parameters, tot 94,96% taalconsistentie en 70,04% logische correctheid bij 32B parameters. Deze resultaten ondersteunen betrouwbaar en eerlijk meertalig medisch redeneren in LLM's. De code en dataset zijn beschikbaar op https://cure-med.github.io/

English

While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/

CURE-Med: Curriculum-geïnformeerde reinforcement learning voor meertalig medisch redeneren

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Samenvatting

Support