Lingshu: Универсальная базовая модель для единого мультимодального медицинского анализа и рассуждений
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
June 8, 2025
Авторы: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие способности в понимании общих визуальных элементов, что во многом обусловлено их масштабными наборами данных и передовыми стратегиями обучения. Однако их эффективность в медицинских приложениях остается ограниченной из-за присущих расхождений между данными и задачами в медицинских сценариях и теми, что используются в общем домене. Конкретно, существующие медицинские MLLM сталкиваются со следующими критическими ограничениями: (1) ограниченный охват медицинских знаний за пределами визуализации, (2) повышенная склонность к галлюцинациям из-за неоптимальных процессов подготовки данных, (3) отсутствие способностей к рассуждению, адаптированных для сложных медицинских сценариев. Для решения этих проблем мы сначала предлагаем комплексную процедуру подготовки данных, которая (1) эффективно собирает богатые медицинские знания не только из медицинских изображений, но и из обширных медицинских текстов и данных общего домена; и (2) синтезирует точные медицинские описания, визуальные вопросы и ответы (VQA), а также примеры для рассуждений. В результате мы создаем мультимодальный набор данных, обогащенный обширными медицинскими знаниями. На основе подготовленных данных мы представляем нашу специализированную медицинскую MLLM: Lingshu. Lingshu проходит многоэтапное обучение для внедрения медицинских знаний и постепенного улучшения способностей к решению задач. Кроме того, мы предварительно исследуем потенциал применения парадигмы обучения с подкреплением с проверяемыми наградами для улучшения медицинских способностей к рассуждению Lingshu. Дополнительно мы разрабатываем MedEvalKit, унифицированную структуру оценки, которая объединяет ведущие мультимодальные и текстовые медицинские бенчмарки для стандартизированной, справедливой и эффективной оценки моделей. Мы оцениваем производительность Lingshu на трех фундаментальных медицинских задачах: мультимодальные вопросы и ответы, текстовые вопросы и ответы, а также генерация медицинских отчетов. Результаты показывают, что Lingshu стабильно превосходит существующие открытые мультимодальные модели в большинстве задач...
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities in understanding common visual elements, largely due to their
large-scale datasets and advanced training strategies. However, their
effectiveness in medical applications remains limited due to the inherent
discrepancies between data and tasks in medical scenarios and those in the
general domain. Concretely, existing medical MLLMs face the following critical
limitations: (1) limited coverage of medical knowledge beyond imaging, (2)
heightened susceptibility to hallucinations due to suboptimal data curation
processes, (3) lack of reasoning capabilities tailored for complex medical
scenarios. To address these challenges, we first propose a comprehensive data
curation procedure that (1) efficiently acquires rich medical knowledge data
not only from medical imaging but also from extensive medical texts and
general-domain data; and (2) synthesizes accurate medical captions, visual
question answering (VQA), and reasoning samples. As a result, we build a
multimodal dataset enriched with extensive medical knowledge. Building on the
curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu
undergoes multi-stage training to embed medical expertise and enhance its
task-solving capabilities progressively. Besides, we preliminarily explore the
potential of applying reinforcement learning with verifiable rewards paradigm
to enhance Lingshu's medical reasoning ability. Additionally, we develop
MedEvalKit, a unified evaluation framework that consolidates leading multimodal
and textual medical benchmarks for standardized, fair, and efficient model
assessment. We evaluate the performance of Lingshu on three fundamental medical
tasks, multimodal QA, text-based QA, and medical report generation. The results
show that Lingshu consistently outperforms the existing open-source multimodal
models on most tasks ...