ChatPaper.aiChatPaper

Baichuan-M2: Escalonando Capacidades Médicas com um Grande Sistema Verificador

Baichuan-M2: Scaling Medical Capability with Large Verifier System

September 2, 2025
Autores: Baichuan-M2 Team, Chengfeng Dou, Chong Liu, Fan Yang, Fei Li, Jiyuan Jia, Mingyang Chen, Qiang Ju, Shuai Wang, Shunya Dang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Chenzheng Zhu, Da Pan, Fei Deng, Guangwei Ai, Guosheng Dong, Hongda Zhang, Jinyang Tai, Jixiang Hong, Kai Lu, Linzhuang Sun, Peidong Guo, Qian Ma, Rihui Xin, Shihui Yang, Shusen Zhang, Yichuan Mo, Zheng Liang, Zhishou Zhang, Hengfu Cui, Zuyi Zhu, Xiaochuan Wang
cs.AI

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) avançam em capacidades conversacionais e de raciocínio, sua aplicação prática na área da saúde tornou-se um foco crítico de pesquisa. No entanto, há uma lacuna significativa entre o desempenho de LLMs médicos em benchmarks estáticos, como o USMLE, e sua utilidade na tomada de decisões clínicas do mundo real. Essa discrepância ocorre porque os exames tradicionais não capturam a natureza dinâmica e interativa das consultas médicas. Para enfrentar esse desafio, introduzimos uma nova estrutura de verificação dinâmica que vai além de verificadores de respostas estáticos, estabelecendo um sistema de aprendizado por reforço interativo em larga escala e alta fidelidade. Nossa estrutura compreende dois componentes principais: um Simulador de Pacientes que cria ambientes clínicos realistas usando registros médicos desidentificados, e um Gerador de Rúbricas Clínicas que produz dinamicamente métricas de avaliação multidimensionais. Com base nessa fundação, desenvolvemos o Baichuan-M2, um modelo de raciocínio aumentado médico com 32 bilhões de parâmetros, treinado por meio de uma estratégia de aprendizado por reforço em múltiplos estágios com um algoritmo aprimorado de Otimização de Política Relativa de Grupo (GRPO). Avaliado no HealthBench, o Baichuan-M2 supera todos os outros modelos de código aberto e a maioria dos equivalentes avançados de código fechado, alcançando uma pontuação acima de 32 no desafiador benchmark HealthBench Hard — anteriormente superado apenas pelo GPT-5. Nosso trabalho demonstra que um sistema robusto de verificação dinâmica é essencial para alinhar as capacidades dos LLMs com aplicações clínicas práticas, estabelecendo uma nova fronteira de Pareto na relação entre desempenho e parâmetros para a implantação de IA médica.
English
As large language models (LLMs) advance in conversational and reasoning capabilities, their practical application in healthcare has become a critical research focus. However, there is a notable gap between the performance of medical LLMs on static benchmarks such as USMLE and their utility in real-world clinical decision-making. This discrepancy arises because traditional exams fail to capture the dynamic, interactive nature of medical consultations. To address this challenge, we introduce a novel dynamic verification framework that moves beyond static answer verifier, establishing a large-scale, high-fidelity interactive reinforcement learning system. Our framework comprises two key components: a Patient Simulator that creates realistic clinical environments using de-identified medical records, and a Clinical Rubrics Generator that dynamically produces multi-dimensional evaluation metrics. Building on this foundation, we develop Baichuan-M2, a 32B-parameter medical augmented reasoning model trained through a multi-stage reinforcement learning strategy with an improved Group Relative Policy Optimization (GRPO) algorithm. Evaluated on HealthBench, Baichuan-M2 outperforms all other open-source models and most advanced closed-source counterparts, achieving a score above 32 on the challenging HealthBench Hard benchmark-previously exceeded only by GPT-5. Our work demonstrates that robust dynamic verifier system is essential for aligning LLM capabilities with practical clinical applications, establishing a new Pareto front in the performance-parameter trade-off for medical AI deployment.
PDF382September 3, 2025