Un Marco Diagnóstico Explicable para Demencias Neurodegenerativas mediante Razonamiento Optimizado por Refuerzo en Modelos de Lenguaje de Gran Escala
An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning
May 26, 2025
Autores: Andrew Zamai, Nathanael Fijalkow, Boris Mansencal, Laurent Simon, Eloi Navet, Pierrick Coupe
cs.AI
Resumen
El diagnóstico diferencial de las demencias neurodegenerativas es una tarea clínica compleja, principalmente debido a la superposición en la presentación de síntomas y la similitud de los patrones observados en la neuroimagen estructural. Para mejorar la eficiencia y precisión diagnóstica, se han propuesto métodos basados en aprendizaje profundo, como Redes Neuronales Convolucionales y Transformadores de Visión, para la clasificación automática de resonancias magnéticas cerebrales. Sin embargo, a pesar de su fuerte rendimiento predictivo, estos modelos tienen una utilidad clínica limitada debido a su toma de decisiones opaca. En este trabajo, proponemos un marco que integra dos componentes principales para mejorar la transparencia diagnóstica. Primero, introducimos una canalización modular para convertir resonancias magnéticas cerebrales T1 ponderadas en 3D en informes radiológicos textuales. Segundo, exploramos el potencial de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) modernos para asistir a los clínicos en el diagnóstico diferencial entre subtipos de demencia frontotemporal, enfermedad de Alzheimer y envejecimiento normal basándose en los informes generados. Para cerrar la brecha entre la precisión predictiva y la explicabilidad, empleamos aprendizaje por refuerzo para incentivar el razonamiento diagnóstico en los LLMs. Sin requerir trazas de razonamiento supervisadas o destilación de modelos más grandes, nuestro enfoque permite la emergencia de racionales diagnósticos estructurados basados en hallazgos de neuroimagen. A diferencia de los métodos de explicabilidad post-hoc que justifican retrospectivamente las decisiones del modelo, nuestro marco genera racionales diagnósticos como parte del proceso de inferencia, produciendo explicaciones causalmente fundamentadas que informan y guían el proceso de toma de decisiones del modelo. Al hacerlo, nuestro marco iguala el rendimiento diagnóstico de los métodos existentes de aprendizaje profundo mientras ofrece racionales que respaldan sus conclusiones diagnósticas.
English
The differential diagnosis of neurodegenerative dementias is a challenging
clinical task, mainly because of the overlap in symptom presentation and the
similarity of patterns observed in structural neuroimaging. To improve
diagnostic efficiency and accuracy, deep learning-based methods such as
Convolutional Neural Networks and Vision Transformers have been proposed for
the automatic classification of brain MRIs. However, despite their strong
predictive performance, these models find limited clinical utility due to their
opaque decision making. In this work, we propose a framework that integrates
two core components to enhance diagnostic transparency. First, we introduce a
modular pipeline for converting 3D T1-weighted brain MRIs into textual
radiology reports. Second, we explore the potential of modern Large Language
Models (LLMs) to assist clinicians in the differential diagnosis between
Frontotemporal dementia subtypes, Alzheimer's disease, and normal aging based
on the generated reports. To bridge the gap between predictive accuracy and
explainability, we employ reinforcement learning to incentivize diagnostic
reasoning in LLMs. Without requiring supervised reasoning traces or
distillation from larger models, our approach enables the emergence of
structured diagnostic rationales grounded in neuroimaging findings. Unlike
post-hoc explainability methods that retrospectively justify model decisions,
our framework generates diagnostic rationales as part of the inference
process-producing causally grounded explanations that inform and guide the
model's decision-making process. In doing so, our framework matches the
diagnostic performance of existing deep learning methods while offering
rationales that support its diagnostic conclusions.Summary
AI-Generated Summary