Aprimorando o Raciocínio Médico Passo a Passo e Verificável em MLLMs
Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
June 20, 2025
Autores: Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
cs.AI
Resumo
Os modelos de linguagem multimodal de grande escala (MLLMs) começaram a demonstrar capacidades robustas de raciocínio em tarefas gerais, mas sua aplicação no domínio médico ainda está em estágios iniciais. A construção de dados de treinamento de cadeia de pensamento (CoT) é essencial para fortalecer as habilidades de raciocínio dos MLLMs médicos. No entanto, as abordagens existentes apresentam uma deficiência em oferecer uma estrutura abrangente para buscar e avaliar caminhos de raciocínio eficazes em direção a diagnósticos críticos. Para enfrentar esse desafio, propomos o Mentor-Intern Collaborative Search (MICS), um novo esquema de busca de caminhos de raciocínio para gerar dados médicos de CoT rigorosos e eficazes. O MICS primeiro aproveita modelos mentores para inicializar o raciocínio, passo a passo, em seguida, solicita que cada modelo interno continue o pensamento ao longo desses caminhos iniciados e, finalmente, seleciona o caminho de raciocínio ideal de acordo com o desempenho geral de raciocínio de múltiplos modelos internos. O desempenho do raciocínio é determinado por um MICS-Score, que avalia a qualidade dos caminhos de raciocínio gerados. Por fim, construímos o MMRP, um conjunto de dados de raciocínio médico multitarefa com dificuldade classificada, e o Chiron-o1, um novo MLLM médico desenvolvido por meio de uma estratégia de aprendizado curricular, com capacidades robustas de resposta a perguntas visuais e raciocínio generalizável. Experimentos extensivos demonstram que o Chiron-o1, treinado em nosso conjunto de dados CoT construído usando o MICS, alcança desempenho de ponta em uma lista de benchmarks de resposta a perguntas visuais e raciocínio médico. Os códigos estão disponíveis no GitHub - manglu097/Chiron-o1: Aprimorando o Raciocínio Médico Passo a Passo e Verificável em MLLMs.
English
Multimodal large language models (MLLMs) have begun to demonstrate robust
reasoning capabilities on general tasks, yet their application in the medical
domain remains in its early stages. Constructing chain-of-thought (CoT)
training data is essential for bolstering the reasoning abilities of medical
MLLMs. However, existing approaches exhibit a deficiency in offering a
comprehensive framework for searching and evaluating effective reasoning paths
towards critical diagnosis. To address this challenge, we propose Mentor-Intern
Collaborative Search (MICS), a novel reasoning-path searching scheme to
generate rigorous and effective medical CoT data. MICS first leverages mentor
models to initialize the reasoning, one step at a time, then prompts each
intern model to continue the thinking along those initiated paths, and finally
selects the optimal reasoning path according to the overall reasoning
performance of multiple intern models. The reasoning performance is determined
by an MICS-Score, which assesses the quality of generated reasoning paths.
Eventually, we construct MMRP, a multi-task medical reasoning dataset with
ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum
learning strategy, with robust visual question-answering and generalizable
reasoning capabilities. Extensive experiments demonstrate that Chiron-o1,
trained on our CoT dataset constructed using MICS, achieves state-of-the-art
performance across a list of medical visual question answering and reasoning
benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing
Step-by-Step and Verifiable Medical Reasoning in MLLMs