ChatPaper.aiChatPaper

Segmentación de Lesiones Guiada por Instrucciones para Radiografías de Tórax con Conjunto de Datos a Gran Escala Generado Automáticamente

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

November 19, 2025
Autores: Geon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi
cs.AI

Resumen

La aplicabilidad de los modelos actuales de segmentación de lesiones en radiografías de tórax (CXR) se ha visto limitada tanto por el reducido número de etiquetas objetivo como por la dependencia de textos largos y detallados a nivel experto, lo que crea una barrera para su uso práctico. Para abordar estas limitaciones, introducimos un nuevo paradigma: la segmentación de lesiones guiada por instrucciones (ILS), diseñada para segmentar diversos tipos de lesiones basándose en instrucciones simples y fáciles de usar. Bajo este paradigma, construimos MIMIC-ILS, el primer conjunto de datos a gran escala de instrucción-respuesta para la segmentación de lesiones en CXR, utilizando nuestra canalización multimodal totalmente automatizada que genera anotaciones a partir de imágenes de radiografías de tórax y sus informes correspondientes. MIMIC-ILS contiene 1.1 millones de pares de instrucción-respuesta derivados de 192,000 imágenes y 91,000 máscaras de segmentación únicas, cubriendo siete tipos principales de lesiones. Para demostrar empíricamente su utilidad, presentamos ROSALIA, un modelo de visión y lenguaje ajustado en MIMIC-ILS. ROSALIA puede segmentar diversas lesiones y proporcionar explicaciones textuales en respuesta a las instrucciones del usuario. El modelo logra una alta precisión en segmentación y textual en nuestra nueva tarea propuesta, destacando la efectividad de nuestra canalización y el valor de MIMIC-ILS como recurso fundamental para la localización de lesiones en CXR a nivel de píxel.
English
The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.
PDF251December 2, 2025