HuatuoGPT-Vision, к внедрению медицинских визуальных знаний в мультимодальные языковые модели с масштабированием.
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
June 27, 2024
Авторы: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
cs.AI
Аннотация
Быстрое развитие мультимодальных крупных языковых моделей (MLLM), таких как GPT-4V, привело к значительным достижениям. Однако эти модели по-прежнему сталкиваются с вызовами в медицинских мультимодальных возможностях из-за ограничений в количестве и качестве медицинских данных визуального и текстового характера, обусловленных проблемами конфиденциальности данных и высокими затратами на аннотацию. В то время как новаторские подходы используют крупномасштабные, деидентифицированные медицинские пары изображений и текста из PubMed для преодоления этих ограничений, они все еще не могут полностью устранить встроенный шум данных. Для решения этой проблемы мы улучшили медицинские пары изображений и текста из PubMed и использовали MLLM (GPT-4V) в "разобранном" режиме для удаления шума и переформатирования данных, что привело к созданию набора данных PubMedVision с 1,3 миллионом медицинских образцов VQA. Наша валидация показывает, что: (1) PubMedVision может значительно улучшить медицинские мультимодальные возможности текущих MLLM, демонстрируя значительное улучшение в показателях, включая трек MMMU Health & Medicine; (2) ручные проверки медицинских экспертов и эмпирические результаты подтверждают превосходное качество данных нашего набора данных по сравнению с другими методами построения данных. Используя PubMedVision, мы обучаем медицинскую MLLM HuatuoGPT-Vision с 34B параметрами, которая показывает превосходную производительность в медицинских мультимодальных сценариях среди MLLM с открытым исходным кодом.
English
The rapid development of multimodal large language models (MLLMs), such as
GPT-4V, has led to significant advancements. However, these models still face
challenges in medical multimodal capabilities due to limitations in the
quantity and quality of medical vision-text data, stemming from data privacy
concerns and high annotation costs. While pioneering approaches utilize
PubMed's large-scale, de-identified medical image-text pairs to address these
limitations, they still fall short due to inherent data noise. To tackle this,
we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in
an 'unblinded' capacity to denoise and reformat the data, resulting in the
creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our
validation demonstrates that: (1) PubMedVision can significantly enhance the
medical multimodal capabilities of current MLLMs, showing significant
improvement in benchmarks including the MMMU Health & Medicine track; (2)
manual checks by medical experts and empirical results validate the superior
data quality of our dataset compared to other data construction methods. Using
PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows
superior performance in medical multimodal scenarios among open-source MLLMs.Summary
AI-Generated Summary