ChatPaper.aiChatPaper

MLLM에서 단계적이고 검증 가능한 의료 추론 능력 강화

Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

June 20, 2025
저자: Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
cs.AI

초록

다중모드 대형 언어 모델(MLLMs)은 일반적인 작업에서 강력한 추론 능력을 보이기 시작했지만, 의료 분야에서의 적용은 아직 초기 단계에 머물러 있습니다. 의료 MLLMs의 추론 능력을 강화하기 위해서는 사고의 연쇄(CoT) 훈련 데이터를 구축하는 것이 필수적입니다. 그러나 기존 접근법들은 중요한 진단을 위한 효과적인 추론 경로를 탐색하고 평가하는 포괄적인 프레임워크를 제공하는 데 있어 부족함을 보입니다. 이러한 문제를 해결하기 위해, 우리는 엄격하고 효과적인 의료 CoT 데이터를 생성하기 위한 새로운 추론 경로 탐색 기법인 멘토-인턴 협력 탐색(MICS)을 제안합니다. MICS는 먼저 멘토 모델을 활용하여 한 단계씩 추론을 초기화한 다음, 각 인턴 모델이 시작된 경로를 따라 사고를 계속하도록 유도하고, 마지막으로 여러 인턴 모델의 전반적인 추론 성능에 따라 최적의 추론 경로를 선택합니다. 추론 성능은 생성된 추론 경로의 품질을 평가하는 MICS-Score에 의해 결정됩니다. 결국, 우리는 난이도가 순위화된 다중 작업 의료 추론 데이터셋인 MMRP와 커리큘럼 학습 전략을 통해 설계된 새로운 의료 MLLM인 Chiron-o1을 구축했습니다. Chiron-o1은 강력한 시각적 질문 응답 및 일반화 가능한 추론 능력을 갖추고 있습니다. 광범위한 실험을 통해 MICS를 사용하여 구축한 CoT 데이터셋으로 훈련된 Chiron-o1이 다양한 의료 시각적 질문 응답 및 추론 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 코드는 GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs에서 확인할 수 있습니다.
English
Multimodal large language models (MLLMs) have begun to demonstrate robust reasoning capabilities on general tasks, yet their application in the medical domain remains in its early stages. Constructing chain-of-thought (CoT) training data is essential for bolstering the reasoning abilities of medical MLLMs. However, existing approaches exhibit a deficiency in offering a comprehensive framework for searching and evaluating effective reasoning paths towards critical diagnosis. To address this challenge, we propose Mentor-Intern Collaborative Search (MICS), a novel reasoning-path searching scheme to generate rigorous and effective medical CoT data. MICS first leverages mentor models to initialize the reasoning, one step at a time, then prompts each intern model to continue the thinking along those initiated paths, and finally selects the optimal reasoning path according to the overall reasoning performance of multiple intern models. The reasoning performance is determined by an MICS-Score, which assesses the quality of generated reasoning paths. Eventually, we construct MMRP, a multi-task medical reasoning dataset with ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum learning strategy, with robust visual question-answering and generalizable reasoning capabilities. Extensive experiments demonstrate that Chiron-o1, trained on our CoT dataset constructed using MICS, achieves state-of-the-art performance across a list of medical visual question answering and reasoning benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
PDF62June 24, 2025