ChatPaper.aiChatPaper

Sur la généralisation compositionnelle des LLM multimodaux pour l'imagerie médicale

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

December 28, 2024
Auteurs: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI

Résumé

Les grands modèles de langage multimodaux (MLLM) détiennent un potentiel significatif dans le domaine médical, mais leurs capacités sont souvent limitées par un manque de données dans certains domaines médicaux, soulignant ainsi la nécessité de comprendre quels types d'images peuvent être utilisés par les MLLM pour la généralisation. Les recherches actuelles suggèrent que l'entraînement multi-tâches surpasse l'entraînement mono-tâche car différentes tâches peuvent se bénéficier mutuellement, mais elles négligent souvent les relations internes au sein de ces tâches, offrant ainsi des orientations limitées sur la sélection des ensembles de données pour améliorer des tâches spécifiques. Pour analyser ce phénomène, nous avons tenté d'utiliser la généralisation compositionnelle (CG) - la capacité des modèles à comprendre des combinaisons nouvelles en recombinant des éléments appris - comme cadre directeur. Étant donné que les images médicales peuvent être précisément définies par la Modalité, la Région anatomique et la Tâche, offrant naturellement un environnement pour explorer la CG. Par conséquent, nous avons assemblé 106 ensembles de données médicales pour créer Med-MAT pour des expérimentations complètes. Les expériences ont confirmé que les MLLM peuvent utiliser la CG pour comprendre des images médicales inédites et ont identifié la CG comme l'un des principaux moteurs de la généralisation observée dans l'entraînement multi-tâches. De plus, des études supplémentaires ont démontré que la CG soutient efficacement les ensembles de données avec des données limitées et offre des performances cohérentes sur différentes architectures, soulignant ainsi sa polyvalence et sa large applicabilité. Med-MAT est publiquement disponible sur https://github.com/FreedomIntelligence/Med-MAT.
English
Multimodal large language models (MLLMs) hold significant potential in the medical field, but their capabilities are often limited by insufficient data in certain medical domains, highlighting the need for understanding what kinds of images can be used by MLLMs for generalization. Current research suggests that multi-task training outperforms single-task as different tasks can benefit each other, but they often overlook the internal relationships within these tasks, providing limited guidance on selecting datasets to enhance specific tasks. To analyze this phenomenon, we attempted to employ compositional generalization (CG)-the ability of models to understand novel combinations by recombining learned elements-as a guiding framework. Since medical images can be precisely defined by Modality, Anatomical area, and Task, naturally providing an environment for exploring CG. Therefore, we assembled 106 medical datasets to create Med-MAT for comprehensive experiments. The experiments confirmed that MLLMs can use CG to understand unseen medical images and identified CG as one of the main drivers of the generalization observed in multi-task training. Additionally, further studies demonstrated that CG effectively supports datasets with limited data and delivers consistent performance across different backbones, highlighting its versatility and broad applicability. Med-MAT is publicly available at https://github.com/FreedomIntelligence/Med-MAT.

Summary

AI-Generated Summary

PDF474December 31, 2024