ChatPaper.aiChatPaper

Over de Compositie van Generalisatie van Multimodale LLM's voor Medische Beeldvorming

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

December 28, 2024
Auteurs: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben aanzienlijk potentieel in het medische veld, maar hun mogelijkheden worden vaak beperkt door onvoldoende gegevens in bepaalde medische domeinen, waarbij de noodzaak wordt benadrukt om te begrijpen welke soorten afbeeldingen door MLLM's kunnen worden gebruikt voor generalisatie. Huidig onderzoek suggereert dat multi-taak training beter presteert dan enkelvoudige taaktraining omdat verschillende taken elkaar kunnen helpen, maar ze zien vaak de interne relaties binnen deze taken over het hoofd, waardoor er beperkte richtlijnen worden gegeven voor het selecteren van datasets om specifieke taken te verbeteren. Om dit fenomeen te analyseren, hebben we geprobeerd om compositorische generalisatie (CG) - het vermogen van modellen om nieuwe combinaties te begrijpen door geleerde elementen opnieuw te combineren - te gebruiken als een leidraad. Aangezien medische afbeeldingen nauwkeurig kunnen worden gedefinieerd door Modaliteit, Anatomisch gebied en Taak, bieden ze van nature een omgeving voor het verkennen van CG. Daarom hebben we 106 medische datasets samengesteld om Med-MAT te creëren voor uitgebreide experimenten. De experimenten bevestigden dat MLLM's CG kunnen gebruiken om ongeziene medische afbeeldingen te begrijpen en identificeerden CG als een van de belangrijkste drijfveren van de generalisatie die wordt waargenomen bij multi-taak training. Bovendien toonden verdere studies aan dat CG effectief datasets met beperkte gegevens ondersteunt en consistente prestaties levert over verschillende backbones, waarbij de veelzijdigheid en brede toepasbaarheid ervan worden benadrukt. Med-MAT is openbaar beschikbaar op https://github.com/FreedomIntelligence/Med-MAT.
English
Multimodal large language models (MLLMs) hold significant potential in the medical field, but their capabilities are often limited by insufficient data in certain medical domains, highlighting the need for understanding what kinds of images can be used by MLLMs for generalization. Current research suggests that multi-task training outperforms single-task as different tasks can benefit each other, but they often overlook the internal relationships within these tasks, providing limited guidance on selecting datasets to enhance specific tasks. To analyze this phenomenon, we attempted to employ compositional generalization (CG)-the ability of models to understand novel combinations by recombining learned elements-as a guiding framework. Since medical images can be precisely defined by Modality, Anatomical area, and Task, naturally providing an environment for exploring CG. Therefore, we assembled 106 medical datasets to create Med-MAT for comprehensive experiments. The experiments confirmed that MLLMs can use CG to understand unseen medical images and identified CG as one of the main drivers of the generalization observed in multi-task training. Additionally, further studies demonstrated that CG effectively supports datasets with limited data and delivers consistent performance across different backbones, highlighting its versatility and broad applicability. Med-MAT is publicly available at https://github.com/FreedomIntelligence/Med-MAT.

Summary

AI-Generated Summary

PDF474December 31, 2024