Un Framework Diagnostico Esplicabile per le Demenze Neurodegenerative tramite Ragionamento Ottimizzato con LLM e Rinforzo
An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning
May 26, 2025
Autori: Andrew Zamai, Nathanael Fijalkow, Boris Mansencal, Laurent Simon, Eloi Navet, Pierrick Coupe
cs.AI
Abstract
La diagnosi differenziale delle demenze neurodegenerative rappresenta una sfida clinica significativa, principalmente a causa della sovrapposizione nella presentazione dei sintomi e della somiglianza dei pattern osservati nelle neuroimmagini strutturali. Per migliorare l'efficienza e l'accuratezza diagnostica, sono stati proposti metodi basati sul deep learning, come le Reti Neurali Convoluzionali e i Vision Transformer, per la classificazione automatica delle risonanze magnetiche cerebrali. Tuttavia, nonostante le loro elevate prestazioni predittive, questi modelli trovano un'utilità clinica limitata a causa della loro opacità nel processo decisionale. In questo lavoro, proponiamo un framework che integra due componenti fondamentali per migliorare la trasparenza diagnostica. In primo luogo, introduciamo una pipeline modulare per convertire le risonanze magnetiche cerebrali 3D T1-pesate in referti radiologici testuali. In secondo luogo, esploriamo il potenziale dei moderni Modelli Linguistici di Grande Dimensione (LLM) per assistere i clinici nella diagnosi differenziale tra i sottotipi di demenza frontotemporale, la malattia di Alzheimer e l'invecchiamento normale, basandosi sui referti generati. Per colmare il divario tra accuratezza predittiva e spiegabilità, utilizziamo l'apprendimento per rinforzo per incentivare il ragionamento diagnostico negli LLM. Senza richiedere tracce di ragionamento supervisionate o distillazione da modelli più grandi, il nostro approccio consente l'emergere di razionali diagnostici strutturati basati sui risultati delle neuroimmagini. A differenza dei metodi di spiegabilità post-hoc che giustificano retrospettivamente le decisioni del modello, il nostro framework genera razionali diagnostici come parte del processo di inferenza, producendo spiegazioni causalmente fondate che informano e guidano il processo decisionale del modello. In questo modo, il nostro framework eguaglia le prestazioni diagnostiche dei metodi di deep learning esistenti, offrendo al contempo razionali che supportano le sue conclusioni diagnostiche.
English
The differential diagnosis of neurodegenerative dementias is a challenging
clinical task, mainly because of the overlap in symptom presentation and the
similarity of patterns observed in structural neuroimaging. To improve
diagnostic efficiency and accuracy, deep learning-based methods such as
Convolutional Neural Networks and Vision Transformers have been proposed for
the automatic classification of brain MRIs. However, despite their strong
predictive performance, these models find limited clinical utility due to their
opaque decision making. In this work, we propose a framework that integrates
two core components to enhance diagnostic transparency. First, we introduce a
modular pipeline for converting 3D T1-weighted brain MRIs into textual
radiology reports. Second, we explore the potential of modern Large Language
Models (LLMs) to assist clinicians in the differential diagnosis between
Frontotemporal dementia subtypes, Alzheimer's disease, and normal aging based
on the generated reports. To bridge the gap between predictive accuracy and
explainability, we employ reinforcement learning to incentivize diagnostic
reasoning in LLMs. Without requiring supervised reasoning traces or
distillation from larger models, our approach enables the emergence of
structured diagnostic rationales grounded in neuroimaging findings. Unlike
post-hoc explainability methods that retrospectively justify model decisions,
our framework generates diagnostic rationales as part of the inference
process-producing causally grounded explanations that inform and guide the
model's decision-making process. In doing so, our framework matches the
diagnostic performance of existing deep learning methods while offering
rationales that support its diagnostic conclusions.