ORID: Органо-региональная информационно-ориентированная структура для создания радиологических отчетов
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation
November 20, 2024
Авторы: Tiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai
cs.AI
Аннотация
Цель создания отчетов в радиологии (Radiology Report Generation, RRG) заключается в автоматическом формировании связных текстовых анализов заболеваний на основе радиологических изображений, тем самым снижая нагрузку на радиологов. Существующие методы RRG на основе искусственного интеллекта в основном сосредотачиваются на модификациях архитектуры модели кодера-декодера. Для продвижения этих подходов в данной статье представляется фреймворк Органно-Регионально-Информационно-Ориентированный (Organ-Regional Information Driven, ORID), который эффективно может интегрировать мультимодальную информацию и уменьшить влияние шума от несвязанных органов. Конкретно, на основе LLaVA-Med мы сначала создаем набор данных с инструкциями, связанными с RRG, для улучшения способности описания диагностики органов и регионов и получаем LLaVA-Med-RRG. Затем мы предлагаем модуль фьюжн мультимодальной информации на основе органов для эффективного объединения информации из описания диагностики органов и регионов и радиологического изображения. Для дальнейшего уменьшения влияния шума от несвязанных органов на генерацию радиологического отчета мы представляем модуль анализа коэффициента важности органов, который использует Графовую Нейронную Сеть (Graph Neural Network, GNN) для изучения взаимосвязей мультимодальной информации каждого органа. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходное качество работы нашего предложенного метода.
English
The objective of Radiology Report Generation (RRG) is to automatically
generate coherent textual analyses of diseases based on radiological images,
thereby alleviating the workload of radiologists. Current AI-based methods for
RRG primarily focus on modifications to the encoder-decoder model architecture.
To advance these approaches, this paper introduces an Organ-Regional
Information Driven (ORID) framework which can effectively integrate multi-modal
information and reduce the influence of noise from unrelated organs.
Specifically, based on the LLaVA-Med, we first construct an RRG-related
instruction dataset to improve organ-regional diagnosis description ability and
get the LLaVA-Med-RRG. After that, we propose an organ-based cross-modal fusion
module to effectively combine the information from the organ-regional diagnosis
description and radiology image. To further reduce the influence of noise from
unrelated organs on the radiology report generation, we introduce an organ
importance coefficient analysis module, which leverages Graph Neural Network
(GNN) to examine the interconnections of the cross-modal information of each
organ region. Extensive experiments an1d comparisons with state-of-the-art
methods across various evaluation metrics demonstrate the superior performance
of our proposed method.Summary
AI-Generated Summary