ChatPaper.aiChatPaper

Segmentation des lésions guidée par instruction pour les radiographies thoraciques avec un jeu de données à grande échelle généré automatiquement

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

November 19, 2025
papers.authors: Geon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi
cs.AI

papers.abstract

L'applicabilité des modèles actuels de segmentation des lésions pour les radiographies thoraciques (CXR) a été limitée à la fois par un petit nombre d'étiquettes cibles et par la dépendance à des entrées textuelles longues et détaillées de niveau expert, créant ainsi un obstacle à l'utilisation pratique. Pour remédier à ces limitations, nous introduisons un nouveau paradigme : la segmentation des lésions guidée par instruction (ILS), conçue pour segmenter divers types de lésions sur la base d'instructions simples et conviviales. Dans le cadre de ce paradigme, nous construisons MIMIC-ILS, le premier jeu de données à grande échelle de type instruction-réponse pour la segmentation des lésions en CXR, en utilisant notre pipeline multimodal entièrement automatisé qui génère des annotations à partir des images de radiographies thoraciques et de leurs rapports correspondants. MIMIC-ILS contient 1,1 million de paires instruction-réponse dérivées de 192 000 images et 91 000 masques de segmentation uniques, couvrant sept types majeurs de lésions. Pour en démontrer empiriquement l'utilité, nous présentons ROSALIA, un modèle vision-langage affiné sur MIMIC-ILS. ROSALIA peut segmenter diverses lésions et fournir des explications textuelles en réponse aux instructions de l'utilisateur. Le modèle atteint une grande précision de segmentation et textuelle dans notre nouvelle tâche proposée, soulignant l'efficacité de notre pipeline et la valeur de MIMIC-ILS en tant que ressource fondamentale pour l'ancrage au niveau pixel des lésions en CXR.
English
The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.
PDF251December 2, 2025