SMMILE: 멀티모달 의료 인-컨텍스트 학습을 위한 전문가 주도 벤치마크
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning
June 26, 2025
저자: Melanie Rieff, Maya Varma, Ossian Rabow, Subathra Adithan, Julie Kim, Ken Chang, Hannah Lee, Nidhi Rohatgi, Christian Bluethgen, Mohamed S. Muneer, Jean-Benoit Delbrouck, Michael Moor
cs.AI
초록
멀티모달 인컨텍스트 학습(ICL)은 의학과 같은 분야에서 상당한 잠재력을 가지고 있음에도 불구하고 아직 충분히 탐구되지 않고 있다. 임상의들은 제한된 예시로부터 적응을 요구하는 다양한 전문 작업을 일상적으로 접한다. 이는 몇 가지 관련된 이전 사례에서 통찰을 도출하거나 제한된 차별 진단 목록을 고려하는 것과 같은 작업을 포함한다. 멀티모달 대형 언어 모델(MLLM)이 의학 시각 질의 응답(VQA)에서 진전을 보여왔지만, 이러한 모델들이 컨텍스트에서 멀티모달 작업을 학습하는 능력은 대체로 알려져 있지 않다. 우리는 의학 작업을 위한 첫 번째 전문가 주도 멀티모달 ICL 벤치마크인 SMMILE를 소개한다. 11명의 의학 전문가들이 문제를 선별하였으며, 각 문제는 멀티모달 질의와 멀티모달 인컨텍스트 예시를 작업 데모로 포함한다. SMMILE는 6개의 의학 전문 분야와 13개의 영상 모달리티를 아우르는 111개의 문제(517개의 질문-이미지-답변 삼중항)로 구성된다. 또한, 우리는 1038개의 순열된 문제를 포함하는 확장 버전인 SMMILE++를 소개한다. 15개의 MLLM에 대한 포괄적인 평가 결과, 대부분의 모델이 의학 작업에서 중간에서 낮은 수준의 멀티모달 ICL 능력을 보이는 것으로 나타났다. 개방형 평가에서 ICL은 SMMILE에서 제로샷 대비 평균 8%, SMMILE++에서 9.4%의 개선만을 기여했다. 우리는 관련 없는 인컨텍스트 예시에 대한 취약성을 관찰했다: 단 하나의 노이즈가 있거나 관련 없는 예시라도 성능을 최대 9.5%까지 저하시킬 수 있다. 또한, 예시 순서는 최신성 편향을 보였는데, 가장 관련 있는 예시를 마지막에 배치하면 성능이 최대 71%까지 크게 향상될 수 있었다. 우리의 연구 결과는 현재 MLLM들이 컨텍스트에서 멀티모달 의학 작업을 학습할 때의 중요한 한계와 편향을 강조한다.
English
Multimodal in-context learning (ICL) remains underexplored despite
significant potential for domains such as medicine. Clinicians routinely
encounter diverse, specialized tasks requiring adaptation from limited
examples, such as drawing insights from a few relevant prior cases or
considering a constrained set of differential diagnoses. While multimodal large
language models (MLLMs) have shown advances in medical visual question
answering (VQA), their ability to learn multimodal tasks from context is
largely unknown. We introduce SMMILE, the first expert-driven multimodal ICL
benchmark for medical tasks. Eleven medical experts curated problems, each
including a multimodal query and multimodal in-context examples as task
demonstrations. SMMILE encompasses 111 problems (517 question-image-answer
triplets) covering 6 medical specialties and 13 imaging modalities. We further
introduce SMMILE++, an augmented variant with 1038 permuted problems. A
comprehensive evaluation of 15 MLLMs demonstrates that most models exhibit
moderate to poor multimodal ICL ability in medical tasks. In open-ended
evaluations, ICL contributes only 8% average improvement over zero-shot on
SMMILE and 9.4% on SMMILE++. We observe a susceptibility for irrelevant
in-context examples: even a single noisy or irrelevant example can degrade
performance by up to 9.5%. Moreover, example ordering exhibits a recency bias,
i.e., placing the most relevant example last can lead to substantial
performance improvements by up to 71%. Our findings highlight critical
limitations and biases in current MLLMs when learning multimodal medical tasks
from context.