自動生成された大規模データセットを用いた胸部X線画像に対する指示文誘導型病変セグメンテーション
Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset
November 19, 2025
著者: Geon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi
cs.AI
要旨
現在の胸部X線画像(CXR)における病変セグメンテーションモデルの実用性は、対象ラベルの少なさと、専門家レベルの長く詳細なテキスト入力を必要とする点によって制限されており、実用化への障壁となっている。これらの課題を解決するため、我々は新しいパラダイムである「指示誘導型病変セグメンテーション(ILS)」を提案する。これは、シンプルでユーザーフレンドリーな指示に基づいて多様な病変タイプをセグメント化することを目的としている。このパラダイムの下、我々は胸部X線画像と対応するレポートから注釈を生成する完全自動化マルチモーダルパイプラインを用いて、CXR病変セグメンテーションにおける初の大規模指示-回答データセットであるMIMIC-ILSを構築した。MIMIC-ILSは192K枚の画像と91Kのユニークなセグメンテーションマスクから生成された110万組の指示-回答ペアを含み、7つの主要な病変タイプを網羅している。その有用性を実証するため、MIMIC-ILSでファインチューニングした視覚言語モデルROSALIAを開発した。ROSALIAはユーザーの指示に応じて多様な病変をセグメント化し、テキストによる説明を提供できる。本モデルは新たに提案したタスクにおいて高いセグメンテーション精度とテキスト精度を達成し、我々のパイプラインの有効性と、ピクセルレベルでのCXR病変位置特定の基盤リソースとしてのMIMIC-ILSの価値を明らかにした。
English
The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.