ChatPaper.aiChatPaper

Zur kompositorischen Verallgemeinerung von multimodalen LLMs für die medizinische Bildgebung

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

December 28, 2024
Autoren: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben ein erhebliches Potenzial im medizinischen Bereich, aber ihre Fähigkeiten sind oft durch unzureichende Daten in bestimmten medizinischen Bereichen begrenzt, was die Notwendigkeit betont zu verstehen, welche Arten von Bildern von MLLMs zur Verallgemeinerung verwendet werden können. Aktuelle Forschungsergebnisse legen nahe, dass das Mehrfachaufgabentraining das Einzelaufgabentraining übertrifft, da sich verschiedene Aufgaben gegenseitig nutzen können, aber oft die internen Beziehungen innerhalb dieser Aufgaben übersehen und nur begrenzte Anleitung zur Auswahl von Datensätzen zur Verbesserung spezifischer Aufgaben bieten. Um dieses Phänomen zu analysieren, haben wir versucht, die kompositorische Verallgemeinerung (CG) - die Fähigkeit von Modellen, neue Kombinationen zu verstehen, indem gelernte Elemente neu kombiniert werden - als Leitfaden zu verwenden. Da medizinische Bilder genau durch Modalität, anatomisches Gebiet und Aufgabe definiert werden können und somit eine Umgebung für die Erforschung von CG bieten. Daher haben wir 106 medizinische Datensätze zusammengestellt, um Med-MAT für umfassende Experimente zu erstellen. Die Experimente bestätigten, dass MLLMs CG nutzen können, um unbekannte medizinische Bilder zu verstehen, und identifizierten CG als einen der Haupttreiber der beobachteten Verallgemeinerung im Mehrfachaufgabentraining. Zusätzliche Studien zeigten, dass CG Datensätze mit begrenzten Daten effektiv unterstützt und eine konsistente Leistung über verschiedene Grundstrukturen liefert, was seine Vielseitigkeit und breite Anwendbarkeit unterstreicht. Med-MAT ist öffentlich unter https://github.com/FreedomIntelligence/Med-MAT verfügbar.
English
Multimodal large language models (MLLMs) hold significant potential in the medical field, but their capabilities are often limited by insufficient data in certain medical domains, highlighting the need for understanding what kinds of images can be used by MLLMs for generalization. Current research suggests that multi-task training outperforms single-task as different tasks can benefit each other, but they often overlook the internal relationships within these tasks, providing limited guidance on selecting datasets to enhance specific tasks. To analyze this phenomenon, we attempted to employ compositional generalization (CG)-the ability of models to understand novel combinations by recombining learned elements-as a guiding framework. Since medical images can be precisely defined by Modality, Anatomical area, and Task, naturally providing an environment for exploring CG. Therefore, we assembled 106 medical datasets to create Med-MAT for comprehensive experiments. The experiments confirmed that MLLMs can use CG to understand unseen medical images and identified CG as one of the main drivers of the generalization observed in multi-task training. Additionally, further studies demonstrated that CG effectively supports datasets with limited data and delivers consistent performance across different backbones, highlighting its versatility and broad applicability. Med-MAT is publicly available at https://github.com/FreedomIntelligence/Med-MAT.

Summary

AI-Generated Summary

PDF474December 31, 2024