LLM tabulaires pour la prédiction interprétable de la maladie d'Alzheimer en few-shot avec des données biomédicales multimodales

Résumé

Le diagnostic précis de la maladie d'Alzheimer (MA) nécessite le traitement de données tabulaires de biomarqueurs, mais ces données sont souvent peu nombreuses et incomplètes, ce qui fait que les modèles d'apprentissage profond échouent souvent à surpasser les méthodes classiques. Les grands modèles de langage (LLM) pré-entraînés offrent une généralisation en few-shot, un raisonnement structuré et des sorties interprétables, représentant un puissant changement de paradigme pour la prédiction clinique. Nous proposons TAP-GPT (Tabular Alzheimer's Prediction GPT), un framework de LLM tabulaire adapté au domaine, construit sur TableGPT2 et affiné pour la classification de la MA en few-shot à l'aide d'invites tabulaires plutôt que de textes bruts. Nous évaluons TAP-GPT sur quatre ensembles de données dérivés de l'ADNI, incluant les biomarqueurs QT-PAD et l'IRM structurelle, la TEP amyloïde et la TEP tau au niveau régional pour la classification binaire de la MA. Dans des contextes multimodaux et unimodaux, TAP-GPT améliore ses modèles de base et surpasse les méthodes de référence d'apprentissage automatique classiques en régime few-shot, tout en restant compétitif par rapport aux LLM généralistes de pointe. Nous montrons que la sélection de caractéristiques atténue la dégradation des entrées haute dimension et que TAP-GPT maintient des performances stables face à des données manquantes simulées et réelles sans imputation. De plus, TAP-GPT produit un raisonnement structuré et conscient de la modalité, aligné sur la biologie établie de la MA, et montre une plus grande stabilité sous auto-réflexion, soutenant son utilisation dans des systèmes multi-agents itératifs. À notre connaissance, il s'agit de la première application systématique d'un LLM spécialisé dans les données tabulaires pour la prédiction de la MA basée sur des biomarqueurs multimodaux, démontrant que ces modèles pré-entraînés peuvent traiter efficacement les tâches de prédiction clinique structurée et jetant les bases des systèmes d'aide à la décision clinique multi-agents pilotés par des LLM tabulaires. Le code source est disponible publiquement sur GitHub : https://github.com/sophie-kearney/TAP-GPT.

English

Accurate diagnosis of Alzheimer's disease (AD) requires handling tabular biomarker data, yet such data are often small and incomplete, where deep learning models frequently fail to outperform classical methods. Pretrained large language models (LLMs) offer few-shot generalization, structured reasoning, and interpretable outputs, providing a powerful paradigm shift for clinical prediction. We propose TAP-GPT Tabular Alzheimer's Prediction GPT, a domain-adapted tabular LLM framework built on TableGPT2 and fine-tuned for few-shot AD classification using tabular prompts rather than plain texts. We evaluate TAP-GPT across four ADNI-derived datasets, including QT-PAD biomarkers and region-level structural MRI, amyloid PET, and tau PET for binary AD classification. Across multimodal and unimodal settings, TAP-GPT improves upon its backbone models and outperforms traditional machine learning baselines in the few-shot setting while remaining competitive with state-of-the-art general-purpose LLMs. We show that feature selection mitigates degradation in high-dimensional inputs and that TAP-GPT maintains stable performance under simulated and real-world missingness without imputation. Additionally, TAP-GPT produces structured, modality-aware reasoning aligned with established AD biology and shows greater stability under self-reflection, supporting its use in iterative multi-agent systems. To our knowledge, this is the first systematic application of a tabular-specialized LLM to multimodal biomarker-based AD prediction, demonstrating that such pretrained models can effectively address structured clinical prediction tasks and laying the foundation for tabular LLM-driven multi-agent clinical decision-support systems. The source code is publicly available on GitHub: https://github.com/sophie-kearney/TAP-GPT.

LLM tabulaires pour la prédiction interprétable de la maladie d'Alzheimer en few-shot avec des données biomédicales multimodales

Tabular LLMs for Interpretable Few-Shot Alzheimer's Disease Prediction with Multimodal Biomedical Data

Résumé

Support