ChatPaper.aiChatPaper

MedVLM-R1 : Encourager la capacité de raisonnement médical des modèles Vision-Language (VLM) via l'apprentissage par renforcement

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

February 26, 2025
Auteurs: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI

Résumé

Le raisonnement est une frontière critique pour faire progresser l'analyse d'images médicales, où la transparence et la fiabilité jouent un rôle central à la fois dans la confiance des cliniciens et dans l'approbation réglementaire. Bien que les Modèles de Langage Visuel Médical (VLM) montrent des promesses pour les tâches radiologiques, la plupart des VLM existants se contentent de produire des réponses finales sans révéler le raisonnement sous-jacent. Pour combler cette lacune, nous présentons MedVLM-R1, un VLM médical qui génère explicitement un raisonnement en langage naturel pour renforcer la transparence et la fiabilité. Au lieu de se fier au fine-tuning supervisé (SFT), qui souffre souvent du surajustement aux distributions d'entraînement et ne parvient pas à favoriser un raisonnement authentique, MedVLM-R1 utilise un cadre d'apprentissage par renforcement qui incite le modèle à découvrir des chemins de raisonnement interprétables par l'humain sans utiliser de références de raisonnement. Malgré des données d'entraînement limitées (600 échantillons de questions visuelles) et des paramètres de modèle (2B), MedVLM-R1 améliore la précision de 55,11% à 78,22% sur les benchmarks d'IRM, de TDM et de radiographie, surpassant des modèles plus grands entraînés sur plus d'un million d'échantillons. Il démontre également une généralisation de domaine robuste sous des tâches hors distribution. En unifiant l'analyse d'images médicales avec un raisonnement explicite, MedVLM-R1 marque une étape décisive vers une IA fiable et interprétable dans la pratique clinique.
English
Reasoning is a critical frontier for advancing medical image analysis, where transparency and trustworthiness play a central role in both clinician trust and regulatory approval. Although Medical Visual Language Models (VLMs) show promise for radiological tasks, most existing VLMs merely produce final answers without revealing the underlying reasoning. To address this gap, we introduce MedVLM-R1, a medical VLM that explicitly generates natural language reasoning to enhance transparency and trustworthiness. Instead of relying on supervised fine-tuning (SFT), which often suffers from overfitting to training distributions and fails to foster genuine reasoning, MedVLM-R1 employs a reinforcement learning framework that incentivizes the model to discover human-interpretable reasoning paths without using any reasoning references. Despite limited training data (600 visual question answering samples) and model parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI, CT, and X-ray benchmarks, outperforming larger models trained on over a million samples. It also demonstrates robust domain generalization under out-of-distribution tasks. By unifying medical image analysis with explicit reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable AI in clinical practice.

Summary

AI-Generated Summary

PDF633February 28, 2025