HuatuoGPT-Vision, 대규모로 의료 시각 지식을 멀티모달 LLM에 통합하기 위한 접근
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
June 27, 2024
저자: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
cs.AI
초록
GPT-4V와 같은 다중모달 대형 언어 모델(MLLMs)의 급속한 발전은 상당한 진전을 이끌어냈습니다. 그러나 이러한 모델들은 여전히 의료 다중모달 능력에서 한계를 겪고 있는데, 이는 데이터 프라이버시 문제와 높은 주석 비용으로 인해 의료 시각-텍스트 데이터의 양과 질이 제한적이기 때문입니다. 선구적인 접근법들은 이러한 한계를 해결하기 위해 PubMed의 대규모, 비식별화된 의료 이미지-텍스트 쌍을 활용하지만, 여전히 내재된 데이터 노이즈로 인해 부족함을 보입니다. 이를 해결하기 위해 우리는 PubMed의 의료 이미지-텍스트 쌍을 정제하고 MLLMs(GPT-4V)를 '비블라인드' 방식으로 활용하여 데이터의 노이즈를 제거하고 재구성함으로써 130만 개의 의료 VQA 샘플로 구성된 PubMedVision 데이터셋을 생성했습니다. 우리의 검증 결과는 다음과 같습니다: (1) PubMedVision은 현재 MLLMs의 의료 다중모달 능력을 크게 향상시킬 수 있으며, MMMU Health & Medicine 트랙을 포함한 벤치마크에서 상당한 개선을 보여줍니다; (2) 의료 전문가들의 수동 검사와 실험 결과는 우리의 데이터셋이 다른 데이터 구축 방법들에 비해 우수한 데이터 품질을 가지고 있음을 입증합니다. PubMedVision을 사용하여 우리는 34B 의료 MLLM인 HuatuoGPT-Vision을 학습시켰으며, 이는 오픈소스 MLLMs 중에서 의료 다중모달 시나리오에서 우수한 성능을 보여줍니다.
English
The rapid development of multimodal large language models (MLLMs), such as
GPT-4V, has led to significant advancements. However, these models still face
challenges in medical multimodal capabilities due to limitations in the
quantity and quality of medical vision-text data, stemming from data privacy
concerns and high annotation costs. While pioneering approaches utilize
PubMed's large-scale, de-identified medical image-text pairs to address these
limitations, they still fall short due to inherent data noise. To tackle this,
we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in
an 'unblinded' capacity to denoise and reformat the data, resulting in the
creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our
validation demonstrates that: (1) PubMedVision can significantly enhance the
medical multimodal capabilities of current MLLMs, showing significant
improvement in benchmarks including the MMMU Health & Medicine track; (2)
manual checks by medical experts and empirical results validate the superior
data quality of our dataset compared to other data construction methods. Using
PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows
superior performance in medical multimodal scenarios among open-source MLLMs.Summary
AI-Generated Summary