Segmentazione delle Lesioni Guidata da Istruzioni per Radiografie del Torace con Dataset su Larga Scala Generato Automaticamente
Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset
November 19, 2025
Autori: Geon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi
cs.AI
Abstract
L'applicabilità dei modelli attuali di segmentazione delle lesioni per radiografie del torace (CXR) è stata limitata sia dal ridotto numero di etichette target che dalla dipendenza da input testuali lunghi e dettagliati a livello esperto, creando una barriera all'uso pratico. Per affrontare queste limitazioni, introduciamo un nuovo paradigma: la segmentazione delle lesioni guidata da istruzioni (ILS), progettata per segmentare diversi tipi di lesioni basandosi su istruzioni semplici e user-friendly. In questo paradigma, costruiamo MIMIC-ILS, il primo dataset su larga scala di istruzioni-risposte per la segmentazione delle lesioni nelle CXR, utilizzando la nostra pipeline multimodale completamente automatizzata che genera annotazioni da immagini di radiografie del torace e dai relativi referti. MIMIC-ILS contiene 1,1 milioni di coppie istruzione-risposta derivate da 192.000 immagini e 91.000 maschere di segmentazione uniche, coprendo sette principali tipi di lesioni. Per dimostrarne empiricamente l'utilità, introduciamo ROSALIA, un modello visione-linguaggio addestrato su MIMIC-ILS. ROSALIA è in grado di segmentare diverse lesioni e fornire spiegazioni testuali in risposta alle istruzioni dell'utente. Il modello raggiunge un'elevata accuratezza sia nella segmentazione che nella produzione testuale nella nostra nuova task proposta, evidenziando l'efficacia della nostra pipeline e il valore di MIMIC-ILS come risorsa fondamentale per il grounding a livello di pixel delle lesioni nelle CXR.
English
The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.