CURE-Med: Aprendizado por Reforço com Base em Currículo para Raciocínio Médico Multilíngue

Resumo

Embora os modelos de linguagem de grande escala (LLMs) tenham demonstrado bom desempenho em tarefas de raciocínio matemático e de senso comum monolíngues, eles permanecem pouco confiáveis para aplicações de raciocínio médico multilíngue, dificultando sua implantação em contextos de saúde multilíngues. Abordamos esta lacuna primeiro introduzindo o CUREMED-BENCH, um conjunto de dados de alta qualidade para raciocínio médico multilíngue com consultas abertas de raciocínio que possuem uma única resposta verificável, abrangendo treze idiomas, incluindo línguas sub-representadas como Amárico, Iorubá e Suaíli. Com base neste conjunto de dados, propomos o CURE-MED, uma estrutura de aprendizado por reforço com currículo que integra ajuste fino supervisionado com sensibilidade a alternância de código (*code-switching*) e Otimização de Política Relativa de Grupo (*Group Relative Policy Optimization*) para melhorar conjuntamente a correção lógica e a estabilidade linguística. Em treze idiomas, nossa abordagem supera consistentemente baselines robustas e escala de forma eficaz, atingindo 85,21% de consistência linguística e 54,35% de correção lógica com 7B de parâmetros, e 94,96% de consistência linguística e 70,04% de correção lógica com 32B de parâmetros. Estes resultados apoiam um raciocínio médico multilíngue confiável e equitativo em LLMs. O código e o conjunto de dados estão disponíveis em https://cure-med.github.io/

English

While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/

CURE-Med: Aprendizado por Reforço com Base em Currículo para Raciocínio Médico Multilíngue

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Resumo

Support