MedTrinity-25M : Un ensemble de données multimodal à grande échelle avec des annotations multigranulaires pour la médecine
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
August 6, 2024
Auteurs: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI
Résumé
Cet article présente MedTrinity-25M, un ensemble de données multimodal à grande échelle et complet pour la médecine, couvrant plus de 25 millions d'images réparties sur 10 modalités, avec des annotations multigranulaires pour plus de 65 maladies. Ces annotations enrichies incluent à la fois des informations textuelles globales, telles que le type de maladie/lésion, la modalité, les descriptions spécifiques à une région et les relations inter-régionales, ainsi que des annotations locales détaillées pour les régions d'intérêt (ROIs), comprenant des boîtes englobantes et des masques de segmentation. Contrairement aux approches existantes limitées par la disponibilité de paires image-texte, nous avons développé le premier pipeline automatisé qui met à l'échelle les données multimodales en générant des annotations visuelles et textuelles multigranulaires (sous forme de triplets image-ROI-description) sans nécessiter de descriptions textuelles appariées. Plus précisément, des données provenant de plus de 90 sources différentes ont été collectées, prétraitées et ancrées à l'aide de modèles experts spécifiques au domaine pour identifier les ROIs liées aux régions anormales. Nous avons ensuite construit une base de connaissances complète et incité des modèles de langage multimodaux à grande échelle à effectuer une génération augmentée par récupération avec les ROIs identifiées comme guide, aboutissant à des descriptions textuelles multigranulaires. Par rapport aux ensembles de données existants, MedTrinity-25M fournit les annotations les plus enrichies, supportant une gamme complète de tâches multimodales telles que la génération de légendes et de rapports, ainsi que des tâches centrées sur la vision comme la classification et la segmentation. En pré-entraînant sur MedTrinity-25M, notre modèle atteint des performances de pointe sur VQA-RAD et PathVQA, surpassant à la fois les modèles de langage multimodaux à grande échelle et d'autres approches représentatives de l'état de l'art. Cet ensemble de données peut également être utilisé pour soutenir le pré-entraînement à grande échelle de modèles d'IA médicaux multimodaux, contribuant au développement de futurs modèles de base dans le domaine médical.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal
dataset for medicine, covering over 25 million images across 10 modalities,
with multigranular annotations for more than 65 diseases. These enriched
annotations encompass both global textual information, such as disease/lesion
type, modality, region-specific descriptions, and inter-regional relationships,
as well as detailed local annotations for regions of interest (ROIs), including
bounding boxes, segmentation masks. Unlike existing approach which is limited
by the availability of image-text pairs, we have developed the first automated
pipeline that scales up multimodal data by generating multigranular visual and
texual annotations (in the form of image-ROI-description triplets) without the
need for any paired text descriptions. Specifically, data from over 90
different sources have been collected, preprocessed, and grounded using
domain-specific expert models to identify ROIs related to abnormal regions. We
then build a comprehensive knowledge base and prompt multimodal large language
models to perform retrieval-augmented generation with the identified ROIs as
guidance, resulting in multigranular texual descriptions. Compared to existing
datasets, MedTrinity-25M provides the most enriched annotations, supporting a
comprehensive range of multimodal tasks such as captioning and report
generation, as well as vision-centric tasks like classification and
segmentation. Pretraining on MedTrinity-25M, our model achieves
state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal
large language models and other representative SoTA approaches. This dataset
can also be utilized to support large-scale pre-training of multimodal medical
AI models, contributing to the development of future foundation models in the
medical domain.Summary
AI-Generated Summary