ChatPaper.aiChatPaper

Сегментация поражений на рентгенограммах органов грудной клетки с управлением по инструкциям на основе автоматически сгенерированного масштабного набора данных

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

November 19, 2025
Авторы: Geon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi
cs.AI

Аннотация

Применимость современных моделей сегментации поражений для рентгенограмм органов грудной клетки (РОГК) ограничивается как малым количеством целевых меток, так и зависимостью от длинных, детализированных текстовых описаний экспертного уровня, что создает барьер для практического использования. Для преодоления этих ограничений мы представляем новую парадигму: сегментацию поражений по инструкциям (instruction-guided lesion segmentation, ILS), предназначенную для сегментации различных типов поражений на основе простых, удобных для пользователя инструкций. В рамках этой парадигмы мы создаем MIMIC-ILS — первый масштабный набор данных «инструкция-ответ» для сегментации поражений на РОГК, используя наш полностью автоматизированный мультимодальный конвейер, генерирующий разметку из изображений рентгенограмм и соответствующих им медицинских заключений. MIMIC-ILS содержит 1.1 миллион пар «инструкция-ответ», полученных из 192 тысяч изображений и 91 тысячи уникальных масок сегментации, охватывающих семь основных типов поражений. Для эмпирической демонстрации его полезности мы представляем ROSALIA — модель обработки визуальной и текстовой информации, дообученную на MIMIC-ILS. ROSALIA способна сегментировать различные поражения и предоставлять текстовые объяснения в ответ на пользовательские инструкции. Модель демонстрирует высокую точность сегментации и текстовых ответов в нашей новой задаче, что подчеркивает эффективность нашего конвейера и ценность MIMIC-ILS как фундаментального ресурса для пиксельной локализации поражений на РОГК.
English
The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.
PDF251December 2, 2025