ChatPaper.aiChatPaper

Anleitunggesteuerte Läsionssegmentierung für Röntgenthoraxaufnahmen mit automatisch generiertem großvolumigem Datensatz

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

November 19, 2025
papers.authors: Geon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi
cs.AI

papers.abstract

Die Anwendbarkeit aktueller Läsionssegmentierungsmodelle für Thoraxröntgenaufnahmen (CXRs) war bisher sowohl durch eine geringe Anzahl an Ziel-Labels als auch durch die Abhängigkeit von langen, detaillierten Experten-Textinputs eingeschränkt, was eine Hürde für die praktische Anwendung darstellte. Um diese Einschränkungen zu adressieren, führen wir ein neues Paradigma ein: instruktionsgesteuerte Läsionssegmentierung (ILS), die darauf ausgelegt ist, verschiedene Läsionstypen auf Basis einfacher, benutzerfreundlicher Anweisungen zu segmentieren. Im Rahmen dieses Paradigmas erstellen wir MIMIC-ILS, den ersten großangelegten Instruktions-Antwort-Datensatz für die CXR-Läsionssegmentierung, unter Verwendung unserer vollautomatisierten multimodalen Pipeline, die Annotationen aus Thoraxröntgenbildern und deren entsprechenden Berichten generiert. MIMIC-ILS enthält 1,1 Millionen Instruktions-Antwort-Paare, die aus 192.000 Bildern und 91.000 einzigartigen Segmentierungsmasken abgeleitet wurden und sieben Hauptläsionstypen abdecken. Um den Nutzen empirisch zu demonstrieren, stellen wir ROSALIA vor, ein Sprach-Bild-Modell, das auf MIMIC-ILS feinabgestimmt wurde. ROSALIA kann verschiedene Läsionen segmentieren und textuelle Erklärungen als Reaktion auf Benutzeranweisungen liefern. Das Modell erreicht eine hohe Segmentierungs- und Textgenauigkeit in unserer neu vorgeschlagenen Aufgabe, was die Effektivität unserer Pipeline und den Wert von MIMIC-ILS als grundlegende Ressource für die pixelgenaue Lokalisierung von CXR-Läsionen unterstreicht.
English
The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.
PDF251December 2, 2025