Modelos de Lenguaje Tabulares para la Predicción Interpretable de la Enfermedad de Alzheimer con Pocos Ejemplos usando Datos Biomédicos Multimodales

Resumen

El diagnóstico preciso de la enfermedad de Alzheimer (EA) requiere el manejo de datos tabulares de biomarcadores, sin embargo, estos datos suelen ser escasos e incompletos, situación en la que los modelos de aprendizaje profundo a menudo no logran superar a los métodos clásicos. Los grandes modelos de lenguaje (LLM) preentrenados ofrecen generalización en pocos ejemplos, razonamiento estructurado y resultados interpretables, lo que supone un poderoso cambio de paradigma para la predicción clínica. Proponemos TAP-GPT (Tabular Alzheimer's Prediction GPT), un marco de LLM tabular adaptado al dominio, construido sobre TableGPT2 y ajustado para la clasificación de EA con pocos ejemplos utilizando prompts tabulares en lugar de textos planos. Evaluamos TAP-GPT en cuatro conjuntos de datos derivados de ADNI, que incluyen biomarcadores QT-PAD y resonancia magnética estructural a nivel regional, PET de amiloide y PET de tau para la clasificación binaria de EA. Tanto en entornos multimodales como unimodales, TAP-GPT mejora sus modelos base y supera a los métodos de referencia de aprendizaje automático tradicional en el entorno de pocos ejemplos, manteniéndose competitivo con los LLM de propósito general más avanzados. Demostramos que la selección de características mitiga la degradación en entradas de alta dimensionalidad y que TAP-GPT mantiene un rendimiento estable ante datos faltantes simulados y del mundo real sin necesidad de imputación. Adicionalmente, TAP-GPT genera un razonamiento estructurado y consciente de la modalidad, alineado con la biología establecida de la EA, y muestra una mayor estabilidad bajo autorreflexión, respaldando su uso en sistemas multiagente iterativos. Hasta donde sabemos, esta es la primera aplicación sistemática de un LLM especializado en datos tabulares para la predicción de EA multimodal basada en biomarcadores, demostrando que dichos modelos preentrenados pueden abordar eficazmente tareas de predicción clínica estructurada y sentando las bases para sistemas de apoyo a decisiones clínicas multiagente impulsados por LLM tabulares. El código fuente está disponible públicamente en GitHub: https://github.com/sophie-kearney/TAP-GPT.

English

Accurate diagnosis of Alzheimer's disease (AD) requires handling tabular biomarker data, yet such data are often small and incomplete, where deep learning models frequently fail to outperform classical methods. Pretrained large language models (LLMs) offer few-shot generalization, structured reasoning, and interpretable outputs, providing a powerful paradigm shift for clinical prediction. We propose TAP-GPT Tabular Alzheimer's Prediction GPT, a domain-adapted tabular LLM framework built on TableGPT2 and fine-tuned for few-shot AD classification using tabular prompts rather than plain texts. We evaluate TAP-GPT across four ADNI-derived datasets, including QT-PAD biomarkers and region-level structural MRI, amyloid PET, and tau PET for binary AD classification. Across multimodal and unimodal settings, TAP-GPT improves upon its backbone models and outperforms traditional machine learning baselines in the few-shot setting while remaining competitive with state-of-the-art general-purpose LLMs. We show that feature selection mitigates degradation in high-dimensional inputs and that TAP-GPT maintains stable performance under simulated and real-world missingness without imputation. Additionally, TAP-GPT produces structured, modality-aware reasoning aligned with established AD biology and shows greater stability under self-reflection, supporting its use in iterative multi-agent systems. To our knowledge, this is the first systematic application of a tabular-specialized LLM to multimodal biomarker-based AD prediction, demonstrating that such pretrained models can effectively address structured clinical prediction tasks and laying the foundation for tabular LLM-driven multi-agent clinical decision-support systems. The source code is publicly available on GitHub: https://github.com/sophie-kearney/TAP-GPT.

Modelos de Lenguaje Tabulares para la Predicción Interpretable de la Enfermedad de Alzheimer con Pocos Ejemplos usando Datos Biomédicos Multimodales

Tabular LLMs for Interpretable Few-Shot Alzheimer's Disease Prediction with Multimodal Biomedical Data

Resumen

Support