Modelli LLM Tabellari per la Predizione Interpretabile del Morbo di Alzheimer in Few-Shot con Dati Biomedici Multimodali

Abstract

La diagnosi accurata del morbo di Alzheimer (MA) richiede l'elaborazione di dati biomarcatori in formato tabellare, tuttavia tali dati sono spesso esigui e incompleti, contesti in cui i modelli di deep learning spesso non riescono a superare le metodologie classiche. I grandi modelli linguistici (LLM) preaddestrati offrono generalizzazione few-shot, ragionamento strutturato e output interpretabili, rappresentando un potente cambio di paradigma per la predizione clinica. Proponiamo TAP-GPT (Tabular Alzheimer's Prediction GPT), un framework di LLM tabellare adattato al dominio, basato su TableGPT2 e raffinato per la classificazione few-shot del MA utilizzando prompt tabellari anziché testo semplice. Valutiamo TAP-GPT su quattro dataset derivati da ADNI, inclusi biomarcatori QT-PAD e risonanza magnetica strutturale a livello regionale, PET amiloide e PET tau per la classificazione binaria del MA. In contesti multimodali e unimodali, TAP-GPT migliora i modelli di partenza e supera i baseline di machine learning tradizionale in setting few-shot, mantenendo al contempo competitività con gli LLM general-purpose allo stato dell'arte. Dimostriamo che la selezione delle caratteristiche mitiga il degrado con input ad alta dimensionalità e che TAP-GPT mantiene prestazioni stabili in condizioni di dati mancanti simulati e reali senza necessità di imputazione. Inoltre, TAP-GPT produce un ragionamento strutturato e consapevole della modalità, allineato con la biologia consolidata del MA, e mostra una maggiore stabilità sotto auto-riflessione, supportandone l'uso in sistemi multi-agente iterativi. A nostra conoscenza, questa è la prima applicazione sistematica di un LLM specializzato in dati tabellari alla predizione del MA basata su biomarcatori multimodali, dimostrando che tali modelli preaddestrati possono affrontare efficacemente compiti di predizione clinica strutturata e gettando le basi per sistemi di supporto alle decisioni cliniche multi-agente guidati da LLM tabellari. Il codice sorgente è pubblicamente disponibile su GitHub: https://github.com/sophie-kearney/TAP-GPT.

English

Accurate diagnosis of Alzheimer's disease (AD) requires handling tabular biomarker data, yet such data are often small and incomplete, where deep learning models frequently fail to outperform classical methods. Pretrained large language models (LLMs) offer few-shot generalization, structured reasoning, and interpretable outputs, providing a powerful paradigm shift for clinical prediction. We propose TAP-GPT Tabular Alzheimer's Prediction GPT, a domain-adapted tabular LLM framework built on TableGPT2 and fine-tuned for few-shot AD classification using tabular prompts rather than plain texts. We evaluate TAP-GPT across four ADNI-derived datasets, including QT-PAD biomarkers and region-level structural MRI, amyloid PET, and tau PET for binary AD classification. Across multimodal and unimodal settings, TAP-GPT improves upon its backbone models and outperforms traditional machine learning baselines in the few-shot setting while remaining competitive with state-of-the-art general-purpose LLMs. We show that feature selection mitigates degradation in high-dimensional inputs and that TAP-GPT maintains stable performance under simulated and real-world missingness without imputation. Additionally, TAP-GPT produces structured, modality-aware reasoning aligned with established AD biology and shows greater stability under self-reflection, supporting its use in iterative multi-agent systems. To our knowledge, this is the first systematic application of a tabular-specialized LLM to multimodal biomarker-based AD prediction, demonstrating that such pretrained models can effectively address structured clinical prediction tasks and laying the foundation for tabular LLM-driven multi-agent clinical decision-support systems. The source code is publicly available on GitHub: https://github.com/sophie-kearney/TAP-GPT.

Modelli LLM Tabellari per la Predizione Interpretabile del Morbo di Alzheimer in Few-Shot con Dati Biomedici Multimodali

Tabular LLMs for Interpretable Few-Shot Alzheimer's Disease Prediction with Multimodal Biomedical Data

Abstract

Support