Zur kompositorischen Verallgemeinerung von multimodalen LLMs für die medizinische Bildgebung
On the Compositional Generalization of Multimodal LLMs for Medical Imaging
December 28, 2024
Autoren: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) haben ein erhebliches Potenzial im medizinischen Bereich, aber ihre Fähigkeiten sind oft durch unzureichende Daten in bestimmten medizinischen Bereichen begrenzt, was die Notwendigkeit betont zu verstehen, welche Arten von Bildern von MLLMs zur Verallgemeinerung verwendet werden können. Aktuelle Forschungsergebnisse legen nahe, dass das Mehrfachaufgabentraining das Einzelaufgabentraining übertrifft, da sich verschiedene Aufgaben gegenseitig nutzen können, aber oft die internen Beziehungen innerhalb dieser Aufgaben übersehen und nur begrenzte Anleitung zur Auswahl von Datensätzen zur Verbesserung spezifischer Aufgaben bieten. Um dieses Phänomen zu analysieren, haben wir versucht, die kompositorische Verallgemeinerung (CG) - die Fähigkeit von Modellen, neue Kombinationen zu verstehen, indem gelernte Elemente neu kombiniert werden - als Leitfaden zu verwenden. Da medizinische Bilder genau durch Modalität, anatomisches Gebiet und Aufgabe definiert werden können und somit eine Umgebung für die Erforschung von CG bieten. Daher haben wir 106 medizinische Datensätze zusammengestellt, um Med-MAT für umfassende Experimente zu erstellen. Die Experimente bestätigten, dass MLLMs CG nutzen können, um unbekannte medizinische Bilder zu verstehen, und identifizierten CG als einen der Haupttreiber der beobachteten Verallgemeinerung im Mehrfachaufgabentraining. Zusätzliche Studien zeigten, dass CG Datensätze mit begrenzten Daten effektiv unterstützt und eine konsistente Leistung über verschiedene Grundstrukturen liefert, was seine Vielseitigkeit und breite Anwendbarkeit unterstreicht. Med-MAT ist öffentlich unter https://github.com/FreedomIntelligence/Med-MAT verfügbar.
English
Multimodal large language models (MLLMs) hold significant potential in the
medical field, but their capabilities are often limited by insufficient data in
certain medical domains, highlighting the need for understanding what kinds of
images can be used by MLLMs for generalization. Current research suggests that
multi-task training outperforms single-task as different tasks can benefit each
other, but they often overlook the internal relationships within these tasks,
providing limited guidance on selecting datasets to enhance specific tasks. To
analyze this phenomenon, we attempted to employ compositional generalization
(CG)-the ability of models to understand novel combinations by recombining
learned elements-as a guiding framework. Since medical images can be precisely
defined by Modality, Anatomical area, and Task, naturally providing an
environment for exploring CG. Therefore, we assembled 106 medical datasets to
create Med-MAT for comprehensive experiments. The experiments confirmed that
MLLMs can use CG to understand unseen medical images and identified CG as one
of the main drivers of the generalization observed in multi-task training.
Additionally, further studies demonstrated that CG effectively supports
datasets with limited data and delivers consistent performance across different
backbones, highlighting its versatility and broad applicability. Med-MAT is
publicly available at https://github.com/FreedomIntelligence/Med-MAT.Summary
AI-Generated Summary