HuatuoGPT-Vision, к внедрению медицинских визуальных знаний в мультимодальные языковые модели с масштабированием.

Аннотация

Быстрое развитие мультимодальных крупных языковых моделей (MLLM), таких как GPT-4V, привело к значительным достижениям. Однако эти модели по-прежнему сталкиваются с вызовами в медицинских мультимодальных возможностях из-за ограничений в количестве и качестве медицинских данных визуального и текстового характера, обусловленных проблемами конфиденциальности данных и высокими затратами на аннотацию. В то время как новаторские подходы используют крупномасштабные, деидентифицированные медицинские пары изображений и текста из PubMed для преодоления этих ограничений, они все еще не могут полностью устранить встроенный шум данных. Для решения этой проблемы мы улучшили медицинские пары изображений и текста из PubMed и использовали MLLM (GPT-4V) в "разобранном" режиме для удаления шума и переформатирования данных, что привело к созданию набора данных PubMedVision с 1,3 миллионом медицинских образцов VQA. Наша валидация показывает, что: (1) PubMedVision может значительно улучшить медицинские мультимодальные возможности текущих MLLM, демонстрируя значительное улучшение в показателях, включая трек MMMU Health & Medicine; (2) ручные проверки медицинских экспертов и эмпирические результаты подтверждают превосходное качество данных нашего набора данных по сравнению с другими методами построения данных. Используя PubMedVision, мы обучаем медицинскую MLLM HuatuoGPT-Vision с 34B параметрами, которая показывает превосходную производительность в медицинских мультимодальных сценариях среди MLLM с открытым исходным кодом.

English

The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.

HuatuoGPT-Vision, к внедрению медицинских визуальных знаний в мультимодальные языковые модели с масштабированием.

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

Аннотация

Support