Sobre la Generalización Composicional de LLMs Multimodales para Imágenes Médicas
On the Compositional Generalization of Multimodal LLMs for Medical Imaging
December 28, 2024
Autores: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
cs.AI
Resumen
Los modelos de lenguaje multimodales grandes (MLLMs) tienen un gran potencial en el campo médico, pero a menudo sus capacidades se ven limitadas por la insuficiencia de datos en ciertos dominios médicos, lo que destaca la necesidad de comprender qué tipos de imágenes pueden ser utilizadas por los MLLMs para la generalización. La investigación actual sugiere que el entrenamiento multitarea supera al de tarea única, ya que diferentes tareas pueden beneficiarse mutuamente, pero a menudo pasan por alto las relaciones internas dentro de estas tareas, ofreciendo una orientación limitada sobre la selección de conjuntos de datos para mejorar tareas específicas. Para analizar este fenómeno, intentamos emplear la generalización composicional (CG) -la capacidad de los modelos para entender combinaciones novedosas al recombinar elementos aprendidos- como un marco orientador. Dado que las imágenes médicas pueden ser definidas precisamente por Modalidad, Área Anatómica y Tarea, proporcionando naturalmente un entorno para explorar la CG. Por lo tanto, reunimos 106 conjuntos de datos médicos para crear Med-MAT para experimentos exhaustivos. Los experimentos confirmaron que los MLLMs pueden utilizar la CG para comprender imágenes médicas no vistas e identificaron la CG como uno de los principales impulsores de la generalización observada en el entrenamiento multitarea. Además, estudios adicionales demostraron que la CG apoya de manera efectiva a los conjuntos de datos con datos limitados y ofrece un rendimiento consistente en diferentes estructuras, destacando su versatilidad y amplia aplicabilidad. Med-MAT está disponible públicamente en https://github.com/FreedomIntelligence/Med-MAT.
English
Multimodal large language models (MLLMs) hold significant potential in the
medical field, but their capabilities are often limited by insufficient data in
certain medical domains, highlighting the need for understanding what kinds of
images can be used by MLLMs for generalization. Current research suggests that
multi-task training outperforms single-task as different tasks can benefit each
other, but they often overlook the internal relationships within these tasks,
providing limited guidance on selecting datasets to enhance specific tasks. To
analyze this phenomenon, we attempted to employ compositional generalization
(CG)-the ability of models to understand novel combinations by recombining
learned elements-as a guiding framework. Since medical images can be precisely
defined by Modality, Anatomical area, and Task, naturally providing an
environment for exploring CG. Therefore, we assembled 106 medical datasets to
create Med-MAT for comprehensive experiments. The experiments confirmed that
MLLMs can use CG to understand unseen medical images and identified CG as one
of the main drivers of the generalization observed in multi-task training.
Additionally, further studies demonstrated that CG effectively supports
datasets with limited data and delivers consistent performance across different
backbones, highlighting its versatility and broad applicability. Med-MAT is
publicly available at https://github.com/FreedomIntelligence/Med-MAT.Summary
AI-Generated Summary