ChatPaper.aiChatPaper

자동 생성된 대규모 데이터셋을 활용한 흉부 X선 영상의 지시 기반 병변 분할

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

November 19, 2025
저자: Geon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi
cs.AI

초록

현재 흉부 X선(CXR) 병변 분할 모델의 적용 가능성은 적은 수의 대상 레이블과 전문가 수준의 길고 상세한 텍스트 입력에 의존해야 한다는 점으로 인해 제한되어 왔으며, 이는 실용적 사용에 장벽으로 작용해왔습니다. 이러한 한계를 해결하기 위해 우리는 간단하고 사용자 친화적인 지시문을 기반으로 다양한 병변 유형을 분할하도록 설계된 새로운 패러다임인 지시 기반 병변 분할(ILS)을 소개합니다. 이 패러다임 아래에서 우리는 흉부 X선 이미지와 해당 보고서로부터 주석을 생성하는 완전 자동화된 멀티모달 파이프라인을 활용하여 CXR 병변 분할을 위한 최초의 대규모 지시-응답 데이터셋인 MIMIC-ILS를 구축했습니다. MIMIC-ILS는 192K개의 이미지와 91K개의 고유 분할 마스크에서 도출된 110만 개의 지시-응답 쌍을 포함하며, 7가지 주요 병변 유형을 포괄합니다. 그 유용성을 실증적으로 입증하기 위해 MIMIC-ILS로 미세 조정된 vision-language 모델인 ROSALIA를 소개합니다. ROSALIA는 사용자 지시에 응답하여 다양한 병변을 분할하고 텍스트 설명을 제공할 수 있습니다. 이 모델은 우리가 새롭게 제안하는 과제에서 높은 분할 및 텍스트 정확도를 달성하여, 우리 파이프라인의 효과성과 픽셀 수준 CXR 병변 기반 구축을 위한 기초 자원으로서 MIMIC-ILS의 가치를 부각시킵니다.
English
The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.
PDF251December 2, 2025