ChatPaper.aiChatPaper

О композициональной обобщаемости мультимодальных языковых моделей с оценкой для медицинского изображения

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

December 28, 2024
Авторы: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI

Аннотация

Многомодальные крупные языковые модели (MLLM) имеют значительный потенциал в медицинской сфере, однако их возможности часто ограничены недостаточными данными в определенных медицинских областях, что подчеркивает необходимость понимания, какие виды изображений могут использоваться MLLM для обобщения. Существующие исследования показывают, что многозадачное обучение превосходит однозадачное, так как различные задачи могут взаимно пользоваться друг другом, но часто не учитывают внутренние взаимосвязи в этих задачах, что ограничивает рекомендации по выбору наборов данных для улучшения конкретных задач. Для анализа этого явления мы попытались использовать композиционное обобщение (CG) - способность моделей понимать новые комбинации путем повторного сочетания выученных элементов - в качестве руководящей концепции. Поскольку медицинские изображения могут быть точно определены по модальности, анатомической области и задаче, естественно создать среду для исследования CG. Поэтому мы собрали 106 медицинских наборов данных для создания Med-MAT для проведения всесторонних экспериментов. Эксперименты подтвердили, что MLLM могут использовать CG для понимания невидимых медицинских изображений и выявили CG как один из основных факторов обобщения, наблюдаемого при многозадачном обучении. Кроме того, дополнительные исследования показали, что CG эффективно поддерживает наборы данных с ограниченными данными и обеспечивает стабильную производительность на различных основах, подчеркивая его универсальность и широкие возможности применения. Med-MAT доступен публично по адресу https://github.com/FreedomIntelligence/Med-MAT.
English
Multimodal large language models (MLLMs) hold significant potential in the medical field, but their capabilities are often limited by insufficient data in certain medical domains, highlighting the need for understanding what kinds of images can be used by MLLMs for generalization. Current research suggests that multi-task training outperforms single-task as different tasks can benefit each other, but they often overlook the internal relationships within these tasks, providing limited guidance on selecting datasets to enhance specific tasks. To analyze this phenomenon, we attempted to employ compositional generalization (CG)-the ability of models to understand novel combinations by recombining learned elements-as a guiding framework. Since medical images can be precisely defined by Modality, Anatomical area, and Task, naturally providing an environment for exploring CG. Therefore, we assembled 106 medical datasets to create Med-MAT for comprehensive experiments. The experiments confirmed that MLLMs can use CG to understand unseen medical images and identified CG as one of the main drivers of the generalization observed in multi-task training. Additionally, further studies demonstrated that CG effectively supports datasets with limited data and delivers consistent performance across different backbones, highlighting its versatility and broad applicability. Med-MAT is publicly available at https://github.com/FreedomIntelligence/Med-MAT.

Summary

AI-Generated Summary

PDF474December 31, 2024