Laesiesegmentatie voor borstkasröntgenfoto's met instructiebegeleiding en automatisch gegenereerde grootschalige dataset
Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset
November 19, 2025
Auteurs: Geon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi
cs.AI
Samenvatting
De toepasbaarheid van huidige laesiesegmentatiemodellen voor thoraxfoto's (CXRs) wordt beperkt door zowel een klein aantal doel-labels als de afhankelijkheid van lange, gedetailleerde tekstinvoer op expertniveau, wat een barrière vormt voor praktisch gebruik. Om deze beperkingen aan te pakken, introduceren we een nieuw paradigma: instructie-gestuurde laesiesegmentatie (ILS), dat is ontworpen om diverse laesie-types te segmenteren op basis van eenvoudige, gebruiksvriendelijke instructies. Binnen dit paradigma construeren we MIMIC-ILS, de eerste grootschalige instructie-antwoorddataset voor CXR-laesiesegmentatie, met behulp van onze volledig geautomatiseerde multimodale pijplijn die annotaties genereert uit thoraxfoto's en hun bijbehorende rapporten. MIMIC-ILS bevat 1,1 miljoen instructie-antwoordparen afgeleid van 192.000 afbeeldingen en 91.000 unieke segmentatiemaskers, die zeven belangrijke laesie-types bestrijken. Om de bruikbaarheid empirisch aan te tonen, introduceren we ROSALIA, een visie-taalmodel dat is afgestemd op MIMIC-ILS. ROSALIA kan diverse laesies segmenteren en tekstuele uitleg geven in reactie op gebruikersinstructies. Het model behaalt een hoge segmentatie- en tekstuele nauwkeurigheid in onze nieuw voorgestelde taak, wat de effectiviteit van onze pijplijn en de waarde van MIMIC-ILS als fundamentele bron voor pixel-level CXR-laesielokalisatie benadrukt.
English
The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.