ChatPaper.aiChatPaper

μ^2Tokenizer: Tokenizador Diferenciável Multi-Escala e Multi-Modal para Geração de Relatórios Radiológicos

μ^2Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation

June 30, 2025
Autores: Siyou Li, Pengyao Qin, Huanan Wu, Dong Nie, Arun J. Thirunavukarasu, Juntao Yu, Le Zhang
cs.AI

Resumo

A geração automatizada de relatórios radiológicos (RRG) visa produzir relatórios textuais detalhados a partir de imagens clínicas, como tomografias computadorizadas (CT), para melhorar a precisão e a eficiência do diagnóstico e do fornecimento de orientações de tratamento. O RRG é complicado por dois desafios principais: (1) a complexidade inerente na extração de informações relevantes dos dados de imagem sob restrições de recursos, e (2) a dificuldade em avaliar objetivamente as discrepâncias entre relatórios gerados por modelos e relatórios escritos por especialistas. Para enfrentar esses desafios, propomos o mu^2LLM, um modelo de linguagem grande **mu**ltiescala e **mu**ltimodal para tarefas de RRG. O novo {mu}^2Tokenizer, como uma camada intermediária, integra características multimodais do tokenizador visual multiescala e do tokenizador de texto, e então melhora a qualidade da geração de relatórios por meio da otimização de preferência direta (DPO), guiada pelo GREEN-RedLlama. Resultados experimentais em quatro grandes conjuntos de dados médicos de imagens e relatórios de CT demonstram que nosso método supera as abordagens existentes, destacando o potencial de nossos mu^2LLMs ajustados com dados limitados para tarefas de RRG.
English
Automated radiology report generation (RRG) aims to produce detailed textual reports from clinical imaging, such as computed tomography (CT) scans, to improve the accuracy and efficiency of diagnosis and provision of management advice. RRG is complicated by two key challenges: (1) inherent complexity in extracting relevant information from imaging data under resource constraints, and (2) difficulty in objectively evaluating discrepancies between model-generated and expert-written reports. To address these challenges, we propose mu^2LLM, a textbf{mu}ltiscale textbf{mu}ltimodal large language models for RRG tasks. The novel {mu}^2Tokenizer, as an intermediate layer, integrates multi-modal features from the multiscale visual tokenizer and the text tokenizer, then enhances report generation quality through direct preference optimization (DPO), guided by GREEN-RedLlama. Experimental results on four large CT image-report medical datasetdemonstrate that our method outperforms existing approaches, highlighting the potential of our fine-tuned mu^2LLMs on limited data for RRG tasks.
PDF151July 3, 2025