Segmentação de Lesões Guiada por Instrução para Radiografias de Tórax com Conjunto de Dados em Larga Escala Gerado Automaticamente

Resumo

A aplicabilidade dos modelos atuais de segmentação de lesões em radiografias de tórax (CXRs) tem sido limitada tanto pelo pequeno número de rótulos-alvo quanto pela dependência de textos longos e detalhados, de nível especializado, criando uma barreira para o uso prático. Para superar essas limitações, introduzimos um novo paradigma: a segmentação de lesões guiada por instruções (ILS), projetada para segmentar diversos tipos de lesões com base em instruções simples e de fácil utilização. Sob este paradigma, construímos o MIMIC-ILS, o primeiro conjunto de dados em larga escala de instrução-resposta para segmentação de lesões em CXR, utilizando nosso *pipeline* multimodal totalmente automatizado que gera anotações a partir de imagens de radiografias de tórax e seus relatórios correspondentes. O MIMIC-ILS contém 1,1 milhão de pares de instrução-resposta derivados de 192 mil imagens e 91 mil máscaras de segmentação únicas, abrangendo sete tipos principais de lesões. Para demonstrar empiricamente sua utilidade, apresentamos a ROSALIA, um modelo de visão e linguagem ajustado no MIMIC-ILS. A ROSALIA é capaz de segmentar diversas lesões e fornecer explicações textuais em resposta às instruções do usuário. O modelo alcança alta precisão de segmentação e textual em nossa nova tarefa proposta, destacando a eficácia de nosso *pipeline* e o valor do MIMIC-ILS como um recurso fundamental para a ancoragem de lesões em CXR a nível de *pixel*.

English

The applicability of current lesion segmentation models for chest X-rays (CXRs) has been limited both by a small number of target labels and the reliance on long, detailed expert-level text inputs, creating a barrier to practical use. To address these limitations, we introduce a new paradigm: instruction-guided lesion segmentation (ILS), which is designed to segment diverse lesion types based on simple, user-friendly instructions. Under this paradigm, we construct MIMIC-ILS, the first large-scale instruction-answer dataset for CXR lesion segmentation, using our fully automated multimodal pipeline that generates annotations from chest X-ray images and their corresponding reports. MIMIC-ILS contains 1.1M instruction-answer pairs derived from 192K images and 91K unique segmentation masks, covering seven major lesion types. To empirically demonstrate its utility, we introduce ROSALIA, a vision-language model fine-tuned on MIMIC-ILS. ROSALIA can segment diverse lesions and provide textual explanations in response to user instructions. The model achieves high segmentation and textual accuracy in our newly proposed task, highlighting the effectiveness of our pipeline and the value of MIMIC-ILS as a foundational resource for pixel-level CXR lesion grounding.

Segmentação de Lesões Guiada por Instrução para Radiografias de Tórax com Conjunto de Dados em Larga Escala Gerado Automaticamente

Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

Resumo

Support