ChatPaper.aiChatPaper

Lingshu : Un modèle de fondation généraliste pour une compréhension et un raisonnement médicaux multimodaux unifiés

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

June 8, 2025
Auteurs: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI

Résumé

Les modèles de langage multimodaux à grande échelle (MLLMs) ont démontré des capacités impressionnantes dans la compréhension des éléments visuels courants, principalement grâce à leurs ensembles de données à grande échelle et à leurs stratégies d’entraînement avancées. Cependant, leur efficacité dans les applications médicales reste limitée en raison des divergences inhérentes entre les données et les tâches dans les scénarios médicaux et ceux du domaine général. Concrètement, les MLLMs médicaux existants sont confrontés aux limitations critiques suivantes : (1) une couverture limitée des connaissances médicales au-delà de l'imagerie, (2) une susceptibilité accrue aux hallucinations due à des processus de curation de données sous-optimaux, (3) un manque de capacités de raisonnement adaptées aux scénarios médicaux complexes. Pour relever ces défis, nous proposons d’abord une procédure de curation de données complète qui (1) acquiert efficacement des données riches en connaissances médicales non seulement à partir d’imagerie médicale mais aussi de textes médicaux étendus et de données du domaine général ; et (2) synthétise des descriptions médicales précises, des questions-réponses visuelles (VQA) et des échantillons de raisonnement. En conséquence, nous construisons un ensemble de données multimodal enrichi de connaissances médicales étendues. Sur la base des données curées, nous introduisons notre MLLM spécialisé en médecine : Lingshu. Lingshu suit un entraînement en plusieurs étapes pour intégrer l'expertise médicale et améliorer progressivement ses capacités de résolution de tâches. Par ailleurs, nous explorons préliminairement le potentiel de l'apprentissage par renforcement avec un paradigme de récompenses vérifiables pour renforcer la capacité de raisonnement médical de Lingshu. De plus, nous développons MedEvalKit, un cadre d'évaluation unifié qui consolide les principaux benchmarks médicaux multimodaux et textuels pour une évaluation standardisée, équitable et efficace des modèles. Nous évaluons les performances de Lingshu sur trois tâches médicales fondamentales : les questions-réponses multimodales, les questions-réponses textuelles et la génération de rapports médicaux. Les résultats montrent que Lingshu surpasse systématiquement les modèles multimodaux open-source existants sur la plupart des tâches...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in understanding common visual elements, largely due to their large-scale datasets and advanced training strategies. However, their effectiveness in medical applications remains limited due to the inherent discrepancies between data and tasks in medical scenarios and those in the general domain. Concretely, existing medical MLLMs face the following critical limitations: (1) limited coverage of medical knowledge beyond imaging, (2) heightened susceptibility to hallucinations due to suboptimal data curation processes, (3) lack of reasoning capabilities tailored for complex medical scenarios. To address these challenges, we first propose a comprehensive data curation procedure that (1) efficiently acquires rich medical knowledge data not only from medical imaging but also from extensive medical texts and general-domain data; and (2) synthesizes accurate medical captions, visual question answering (VQA), and reasoning samples. As a result, we build a multimodal dataset enriched with extensive medical knowledge. Building on the curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu undergoes multi-stage training to embed medical expertise and enhance its task-solving capabilities progressively. Besides, we preliminarily explore the potential of applying reinforcement learning with verifiable rewards paradigm to enhance Lingshu's medical reasoning ability. Additionally, we develop MedEvalKit, a unified evaluation framework that consolidates leading multimodal and textual medical benchmarks for standardized, fair, and efficient model assessment. We evaluate the performance of Lingshu on three fundamental medical tasks, multimodal QA, text-based QA, and medical report generation. The results show that Lingshu consistently outperforms the existing open-source multimodal models on most tasks ...
PDF993June 10, 2025