ChatPaper.aiChatPaper

CURE-Med: Aprendizaje por Refuerzo Basado en Currículo para el Razonamiento Médico Multilingüe

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

January 19, 2026
Autores: Eric Onyame, Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen, Chirag Agarwal
cs.AI

Resumen

Si bien los grandes modelos de lenguaje (LLM) han demostrado un buen desempeño en el razonamiento matemático y de sentido común monolingüe, continúan siendo poco confiables para aplicaciones de razonamiento médico multilingüe, lo que dificulta su despliegue en entornos sanitarios multilingües. Abordamos este problema presentando primero CUREMED-BENCH, un conjunto de datos de alta calidad para razonamiento médico multilingüe con consultas de razonamiento abiertas que tienen una única respuesta verificable, abarcando trece idiomas, incluyendo lenguas poco representadas como el amárico, el yoruba y el suajili. Basándonos en este conjunto de datos, proponemos CURE-MED, un marco de aprendizaje por refuerzo basado en currículum que integra un ajuste fino supervisado consciente del cambio de código y la Optimización de Políticas Relativas Grupales para mejorar conjuntamente la corrección lógica y la estabilidad lingüística. En trece idiomas, nuestro enfoque supera consistentemente a sólidos modelos de referencia y escala de manera efectiva, logrando un 85.21% de consistencia lingüística y un 54.35% de corrección lógica con 7B de parámetros, y un 94.96% de consistencia lingüística y un 70.04% de corrección lógica con 32B de parámetros. Estos resultados respaldan un razonamiento médico multilingüe confiable y equitativo en los LLM. El código y el conjunto de datos están disponibles en https://cure-med.github.io/
English
While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/
PDF01January 23, 2026