Modelos de Linguagem Tabulares para Predição Interpretável de Doença de Alzheimer em Poucas Amostras com Dados Biomédicos Multimodais
Tabular LLMs for Interpretable Few-Shot Alzheimer's Disease Prediction with Multimodal Biomedical Data
March 17, 2026
Autores: Sophie Kearney, Shu Yang, Zixuan Wen, Weimin Lyu, Bojian Hou, Duy Duong-Tran, Tianlong Chen, Jason H. Moore, Marylyn D. Ritchie, Chao Chen, Li Shen
cs.AI
Resumo
O diagnóstico preciso da doença de Alzheimer (DA) requer o processamento de dados biomarcadores tabulares, no entanto, esses dados são frequentemente escassos e incompletos, situações em que os modelos de aprendizagem profunda frequentemente falham em superar os métodos clássicos. Os grandes modelos de linguagem (LLMs) pré-treinados oferecem generalização few-shot, raciocínio estruturado e saídas interpretáveis, representando uma poderosa mudança de paradigma para a predição clínica. Propomos o TAP-GPT (Tabular Alzheimer's Prediction GPT), uma estrutura de LLM tabular adaptada ao domínio, construída sobre o TableGPT2 e afinada para classificação few-shot da DA usando prompts tabulares em vez de textos simples. Avaliamos o TAP-GPT em quatro conjuntos de dados derivados do ADNI, incluindo biomarcadores QT-PAD e ressonância magnética estrutural a nível regional, PET de amiloide e PET de tau para classificação binária da DA. Em configurações multimodais e unimodais, o TAP-GPT supera os seus modelos de base e apresenta melhor desempenho do que os métodos de referência de aprendizagem automática tradicionais no cenário few-shot, mantendo-se competitivo face aos LLMs de propósito geral state-of-the-art. Demonstramos que a seleção de características mitiga a degradação em entradas de alta dimensionalidade e que o TAP-GPT mantém um desempenho estável sob cenários de missingness simulados e do mundo real, sem necessidade de imputação. Adicionalmente, o TAP-GPT produz um raciocínio estruturado e consciente da modalidade, alinhado com a biologia estabelecida da DA, e exibe maior estabilidade sob autorreflexão, suportando a sua utilização em sistemas multiagente iterativos. Até onde sabemos, esta é a primeira aplicação sistemática de um LLM especializado em dados tabulares para a predição multimodal da DA baseada em biomarcadores, demonstrando que tais modelos pré-treinados podem abordar eficazmente tarefas de predição clínica estruturada e lançando as bases para sistemas de apoio à decisão clínica multiagente orientados por LLMs tabulares. O código fonte está publicamente disponível no GitHub: https://github.com/sophie-kearney/TAP-GPT.
English
Accurate diagnosis of Alzheimer's disease (AD) requires handling tabular biomarker data, yet such data are often small and incomplete, where deep learning models frequently fail to outperform classical methods. Pretrained large language models (LLMs) offer few-shot generalization, structured reasoning, and interpretable outputs, providing a powerful paradigm shift for clinical prediction. We propose TAP-GPT Tabular Alzheimer's Prediction GPT, a domain-adapted tabular LLM framework built on TableGPT2 and fine-tuned for few-shot AD classification using tabular prompts rather than plain texts. We evaluate TAP-GPT across four ADNI-derived datasets, including QT-PAD biomarkers and region-level structural MRI, amyloid PET, and tau PET for binary AD classification. Across multimodal and unimodal settings, TAP-GPT improves upon its backbone models and outperforms traditional machine learning baselines in the few-shot setting while remaining competitive with state-of-the-art general-purpose LLMs. We show that feature selection mitigates degradation in high-dimensional inputs and that TAP-GPT maintains stable performance under simulated and real-world missingness without imputation. Additionally, TAP-GPT produces structured, modality-aware reasoning aligned with established AD biology and shows greater stability under self-reflection, supporting its use in iterative multi-agent systems. To our knowledge, this is the first systematic application of a tabular-specialized LLM to multimodal biomarker-based AD prediction, demonstrating that such pretrained models can effectively address structured clinical prediction tasks and laying the foundation for tabular LLM-driven multi-agent clinical decision-support systems. The source code is publicly available on GitHub: https://github.com/sophie-kearney/TAP-GPT.