MedTrinity-25M: 의학을 위한 다중계층 주석이 포함된 대규모 다중모달 데이터셋

MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

August 6, 2024
저자: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI

초록

본 논문은 의학 분야에 대한 포괄적이고 대규모 다중 모달 데이터셋인 MedTrinity-25M을 소개합니다. 이 데이터셋은 10가지 모달리티에서 25백만 장의 이미지를 다루며, 65가지 이상의 질병에 대한 다중 단계 주석을 제공합니다. 이러한 풍부한 주석은 질병/병변 유형, 모달리티, 지역별 설명, 지역 간 관계와 같은 전역적인 텍스트 정보뿐만 아니라 관심 영역(ROI)에 대한 상세한 지역 주석인 바운딩 박스, 세그멘테이션 마스크를 포함합니다. 이미지-텍스트 쌍의 가용성으로 제한되는 기존 방법과는 달리, 본 연구에서는 텍스트 설명이 필요하지 않은 다중 단계 시각적 및 텍스트 주석(이미지-ROI-설명 쌍 형태)을 생성하여 다중 모달 데이터를 확장하는 최초의 자동화된 파이프라인을 개발했습니다. 구체적으로, 90여 개의 다른 소스에서 수집된 데이터는 도메인 특화 전문가 모델을 사용하여 전처리되고 기존 이상 영역과 관련된 ROI를 식별하는 데 사용되었습니다. 그런 다음 포괄적인 지식 베이스를 구축하고 식별된 ROI를 안내로 사용하여 다중 모달 대형 언어 모델에 검색 보강 생성을 수행하면서 다중 단계 텍스트 설명이 생성되었습니다. 기존 데이터셋과 비교했을 때, MedTrinity-25M은 가장 풍부한 주석을 제공하여 캡션 생성, 보고서 생성과 같은 포괄적인 다중 모달 작업 및 분류, 세그멘테이션과 같은 시각 중심 작업을 지원합니다. MedTrinity-25M에서 사전 훈련을 한 모델은 VQA-RAD 및 PathVQA에서 최첨단 성능을 달성하여 다중 모달 대형 언어 모델 및 다른 대표적인 최신 기술 접근법을 능가했습니다. 이 데이터셋은 또한 다중 모달 의료 AI 모델의 대규모 사전 훈련을 지원하는 데 활용될 수 있으며 의료 분야의 미래 기반 모델 개발에 기여할 수 있습니다.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal dataset for medicine, covering over 25 million images across 10 modalities, with multigranular annotations for more than 65 diseases. These enriched annotations encompass both global textual information, such as disease/lesion type, modality, region-specific descriptions, and inter-regional relationships, as well as detailed local annotations for regions of interest (ROIs), including bounding boxes, segmentation masks. Unlike existing approach which is limited by the availability of image-text pairs, we have developed the first automated pipeline that scales up multimodal data by generating multigranular visual and texual annotations (in the form of image-ROI-description triplets) without the need for any paired text descriptions. Specifically, data from over 90 different sources have been collected, preprocessed, and grounded using domain-specific expert models to identify ROIs related to abnormal regions. We then build a comprehensive knowledge base and prompt multimodal large language models to perform retrieval-augmented generation with the identified ROIs as guidance, resulting in multigranular texual descriptions. Compared to existing datasets, MedTrinity-25M provides the most enriched annotations, supporting a comprehensive range of multimodal tasks such as captioning and report generation, as well as vision-centric tasks like classification and segmentation. Pretraining on MedTrinity-25M, our model achieves state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal large language models and other representative SoTA approaches. This dataset can also be utilized to support large-scale pre-training of multimodal medical AI models, contributing to the development of future foundation models in the medical domain.

Summary

AI-Generated Summary

PDF302November 28, 2024