ChatPaper.aiChatPaper

μ^2Tokenizer : Tokenizer Différentiable Multi-Échelle et Multi-Modal pour la Génération de Rapports Radiologiques

μ^2Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation

June 30, 2025
papers.authors: Siyou Li, Pengyao Qin, Huanan Wu, Dong Nie, Arun J. Thirunavukarasu, Juntao Yu, Le Zhang
cs.AI

papers.abstract

La génération automatisée de rapports radiologiques (RRG) vise à produire des rapports textuels détaillés à partir d'imagerie clinique, telle que les tomodensitométries (CT), afin d'améliorer la précision et l'efficacité du diagnostic et de la fourniture de conseils de prise en charge. La RRG est compliquée par deux défis majeurs : (1) la complexité inhérente à l'extraction d'informations pertinentes à partir des données d'imagerie sous contraintes de ressources, et (2) la difficulté à évaluer objectivement les écarts entre les rapports générés par des modèles et ceux rédigés par des experts. Pour relever ces défis, nous proposons mu^2LLM, un modèle de langage multimodal à grande échelle pour les tâches de RRG. Le nouveau {mu}^2Tokenizer, en tant que couche intermédiaire, intègre des caractéristiques multimodales issues du tokenizer visuel multiscalaire et du tokenizer textuel, puis améliore la qualité de la génération de rapports grâce à l'optimisation directe des préférences (DPO), guidée par GREEN-RedLlama. Les résultats expérimentaux sur quatre grands ensembles de données médicales d'images et de rapports CT démontrent que notre méthode surpasse les approches existantes, mettant en évidence le potentiel de nos mu^2LLMs affinés sur des données limitées pour les tâches de RRG.
English
Automated radiology report generation (RRG) aims to produce detailed textual reports from clinical imaging, such as computed tomography (CT) scans, to improve the accuracy and efficiency of diagnosis and provision of management advice. RRG is complicated by two key challenges: (1) inherent complexity in extracting relevant information from imaging data under resource constraints, and (2) difficulty in objectively evaluating discrepancies between model-generated and expert-written reports. To address these challenges, we propose mu^2LLM, a textbf{mu}ltiscale textbf{mu}ltimodal large language models for RRG tasks. The novel {mu}^2Tokenizer, as an intermediate layer, integrates multi-modal features from the multiscale visual tokenizer and the text tokenizer, then enhances report generation quality through direct preference optimization (DPO), guided by GREEN-RedLlama. Experimental results on four large CT image-report medical datasetdemonstrate that our method outperforms existing approaches, highlighting the potential of our fine-tuned mu^2LLMs on limited data for RRG tasks.
PDF151July 3, 2025