CURE-Med: Обучение с подкреплением на основе учебного плана для многоязычного медицинского логического вывода
CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning
January 19, 2026
Авторы: Eric Onyame, Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen, Chirag Agarwal
cs.AI
Аннотация
Хотя большие языковые модели (LLM) демонстрируют высокую производительность в задачах математических и основанных на здравом смысле рассуждений на одном языке, они остаются ненадежными для многозначных медицинских рассуждений, что препятствует их внедрению в многоязычных медицинских учреждениях. Мы решаем эту проблему, представив CUREMED-BENCH — высококачественный многоязычный набор данных для медицинских рассуждений, содержащий открытые вопросы с единственным проверяемым ответом и охватывающий тринадцать языков, включая недостаточно представленные языки, такие как амхарский, йоруба и суахили. На основе этого набора данных мы предлагаем CURE-MED — основанную на принципах curriculum learning (поэтапного обучения) архитектуру обучения с подкреплением, которая интегрирует контролируемую тонкую настройку с учетом код-свитчинга (смешения кодов) и Group Relative Policy Optimization для совместного повышения логической корректности и языковой стабильности. На всех тринадцати языках наш подход стабильно превосходит сильные базовые модели и эффективно масштабируется, достигая 85,21% языковой согласованности и 54,35% логической корректности при 7 млрд параметров, а также 94,96% языковой согласованности и 70,04% логической корректности при 32 млрд параметров. Эти результаты способствуют созданию надежных и справедливых систем многоязычных медицинских рассуждений на основе LLM. Код и набор данных доступны по адресу https://cure-med.github.io/
English
While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/