ChatPaper.aiChatPaper

μ^2Tokenizer: Differenzierbarer Multi-Scale Multi-Modaler Tokenizer für die Generierung radiologischer Berichte

μ^2Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation

June 30, 2025
papers.authors: Siyou Li, Pengyao Qin, Huanan Wu, Dong Nie, Arun J. Thirunavukarasu, Juntao Yu, Le Zhang
cs.AI

papers.abstract

Die automatisierte Generierung von Radiologieberichten (RRG) zielt darauf ab, detaillierte textuelle Berichte aus klinischen Bildgebungsdaten, wie beispielsweise Computertomographie (CT)-Scans, zu erstellen, um die Genauigkeit und Effizienz der Diagnose sowie die Bereitstellung von Managementempfehlungen zu verbessern. RRG wird durch zwei zentrale Herausforderungen erschwert: (1) die inhärente Komplexität bei der Extraktion relevanter Informationen aus Bildgebungsdaten unter Ressourcenbeschränkungen und (2) die Schwierigkeit, Diskrepanzen zwischen modellgenerierten und von Experten verfassten Berichten objektiv zu bewerten. Um diese Herausforderungen zu bewältigen, schlagen wir mu^2LLM vor, ein **mu**ltiskaliges und **mu**ltimodales großes Sprachmodell für RRG-Aufgaben. Der neuartige {mu}^2Tokenizer fungiert als Zwischenschicht und integriert multimodale Merkmale aus dem multiskalalen visuellen Tokenizer und dem Text-Tokenizer, um anschließend die Qualität der Berichtsgenerierung durch Direct Preference Optimization (DPO) zu verbessern, geleitet von GREEN-RedLlama. Experimentelle Ergebnisse auf vier großen medizinischen Datensätzen mit CT-Bildern und Berichten zeigen, dass unsere Methode bestehende Ansätze übertrifft und das Potenzial unserer feinabgestimmten mu^2LLMs auf begrenzten Daten für RRG-Aufgaben unterstreicht.
English
Automated radiology report generation (RRG) aims to produce detailed textual reports from clinical imaging, such as computed tomography (CT) scans, to improve the accuracy and efficiency of diagnosis and provision of management advice. RRG is complicated by two key challenges: (1) inherent complexity in extracting relevant information from imaging data under resource constraints, and (2) difficulty in objectively evaluating discrepancies between model-generated and expert-written reports. To address these challenges, we propose mu^2LLM, a textbf{mu}ltiscale textbf{mu}ltimodal large language models for RRG tasks. The novel {mu}^2Tokenizer, as an intermediate layer, integrates multi-modal features from the multiscale visual tokenizer and the text tokenizer, then enhances report generation quality through direct preference optimization (DPO), guided by GREEN-RedLlama. Experimental results on four large CT image-report medical datasetdemonstrate that our method outperforms existing approaches, highlighting the potential of our fine-tuned mu^2LLMs on limited data for RRG tasks.
PDF151July 3, 2025