GMAI-VL и GMAI-VL-5.5M: Большая модель видео-языка и Комплексный мультимодальный набор данных в сторону общего медицинского искусственного интеллекта

Аннотация

Несмотря на значительные достижения в области общего искусственного интеллекта, такие как GPT-4, их эффективность в медицинской сфере (общий медицинский ИИ, GMAI) остается ограниченной из-за отсутствия специализированных медицинских знаний. Для решения этой проблемы мы представляем GMAI-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных обладает всесторонним покрытием задач, разнообразными модальностями и высококачественными данными изображений и текста. Основываясь на этом мультимодальном наборе данных, мы предлагаем GMAI-VL, общую медицинскую модель видео-языка с пошаговой стратегией тренировки в трех этапах. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, тем самым улучшая ее способность обрабатывать мультимодальные данные и поддерживать точные диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что GMAI-VL достигает передовых результатов в широком спектре мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных GMAI-VL-5.5M, введение модели GMAI-VL и установление новых стандартов в нескольких медицинских областях. Код и набор данных будут опубликованы на https://github.com/uni-medical/GMAI-VL.

English

Despite significant advancements in general artificial intelligence, such as GPT-4, their effectiveness in the medical domain (general medical AI, GMAI) remains constrained due to the absence of specialized medical knowledge. To address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal medical dataset created by converting hundreds of specialized medical datasets into meticulously constructed image-text pairs. This dataset features comprehensive task coverage, diverse modalities, and high-quality image-text data. Building upon this multimodal dataset, we propose GMAI-VL, a general medical vision-language model with a progressively three-stage training strategy. This approach significantly enhances the model's ability by integrating visual and textual information, thereby improving its ability to process multimodal data and support accurate diagnosis and clinical decision-making. Experimental evaluations demonstrate that GMAI-VL achieves state-of-the-art results across a wide range of multimodal medical tasks, such as visual question answering and medical image diagnosis. Our contributions include the development of the GMAI-VL-5.5M dataset, the introduction of the GMAI-VL model, and the establishment of new benchmarks in multiple medical domains. Code and dataset will be released at https://github.com/uni-medical/GMAI-VL.

GMAI-VL и GMAI-VL-5.5M: Большая модель видео-языка и Комплексный мультимодальный набор данных в сторону общего медицинского искусственного интеллекта

GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Аннотация

Support