Aprimorando o Raciocínio Médico Passo a Passo e Verificável em MLLMs

Resumo

Os modelos de linguagem multimodal de grande escala (MLLMs) começaram a demonstrar capacidades robustas de raciocínio em tarefas gerais, mas sua aplicação no domínio médico ainda está em estágios iniciais. A construção de dados de treinamento de cadeia de pensamento (CoT) é essencial para fortalecer as habilidades de raciocínio dos MLLMs médicos. No entanto, as abordagens existentes apresentam uma deficiência em oferecer uma estrutura abrangente para buscar e avaliar caminhos de raciocínio eficazes em direção a diagnósticos críticos. Para enfrentar esse desafio, propomos o Mentor-Intern Collaborative Search (MICS), um novo esquema de busca de caminhos de raciocínio para gerar dados médicos de CoT rigorosos e eficazes. O MICS primeiro aproveita modelos mentores para inicializar o raciocínio, passo a passo, em seguida, solicita que cada modelo interno continue o pensamento ao longo desses caminhos iniciados e, finalmente, seleciona o caminho de raciocínio ideal de acordo com o desempenho geral de raciocínio de múltiplos modelos internos. O desempenho do raciocínio é determinado por um MICS-Score, que avalia a qualidade dos caminhos de raciocínio gerados. Por fim, construímos o MMRP, um conjunto de dados de raciocínio médico multitarefa com dificuldade classificada, e o Chiron-o1, um novo MLLM médico desenvolvido por meio de uma estratégia de aprendizado curricular, com capacidades robustas de resposta a perguntas visuais e raciocínio generalizável. Experimentos extensivos demonstram que o Chiron-o1, treinado em nosso conjunto de dados CoT construído usando o MICS, alcança desempenho de ponta em uma lista de benchmarks de resposta a perguntas visuais e raciocínio médico. Os códigos estão disponíveis no GitHub - manglu097/Chiron-o1: Aprimorando o Raciocínio Médico Passo a Passo e Verificável em MLLMs.

English

Multimodal large language models (MLLMs) have begun to demonstrate robust reasoning capabilities on general tasks, yet their application in the medical domain remains in its early stages. Constructing chain-of-thought (CoT) training data is essential for bolstering the reasoning abilities of medical MLLMs. However, existing approaches exhibit a deficiency in offering a comprehensive framework for searching and evaluating effective reasoning paths towards critical diagnosis. To address this challenge, we propose Mentor-Intern Collaborative Search (MICS), a novel reasoning-path searching scheme to generate rigorous and effective medical CoT data. MICS first leverages mentor models to initialize the reasoning, one step at a time, then prompts each intern model to continue the thinking along those initiated paths, and finally selects the optimal reasoning path according to the overall reasoning performance of multiple intern models. The reasoning performance is determined by an MICS-Score, which assesses the quality of generated reasoning paths. Eventually, we construct MMRP, a multi-task medical reasoning dataset with ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum learning strategy, with robust visual question-answering and generalizable reasoning capabilities. Extensive experiments demonstrate that Chiron-o1, trained on our CoT dataset constructed using MICS, achieves state-of-the-art performance across a list of medical visual question answering and reasoning benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs