Gli Autoencoder di Immagini Naturali Possono Tokenizzare Compattamente i Volumi fMRI per la Modellizzazione di Dinamiche a Lungo Raggio?

Abstract

La modellazione delle dinamiche spazio-temporali a lungo raggio nella risonanza magnetica funzionale (fMRI) rimane una sfida chiave a causa dell'elevata dimensionalità dei segnali quadridimensionali. I precedenti modelli basati sui voxel, sebbene abbiano dimostrato prestazioni eccellenti e capacità interpretative, sono limitati da richieste di memoria proibitive e quindi possono catturare solo finestre temporali limitate. Per affrontare questo problema, proponiamo TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), un approccio innovativo che tokenizza i volumi fMRI utilizzando un autoencoder pre-addestrato per immagini naturali 2D. Ogni volume fMRI 3D viene compresso in un insieme compatto di token continui, consentendo la modellazione di sequenze lunghe con un semplice encoder Transformer con VRAM limitata. Su benchmark su larga scala, tra cui UK-Biobank (UKB), Human Connectome Project (HCP) e dataset ADHD-200, TABLeT supera i modelli esistenti in molteplici compiti, dimostrando al contempo sostanziali vantaggi in termini di efficienza computazionale e di memoria rispetto allo stato dell'arte dei metodi basati sui voxel, a parità di input. Inoltre, sviluppiamo un approccio di modellazione self-supervised con token mascherati per pre-addestrare TABLeT, che migliora le prestazioni del modello per vari compiti downstream. I nostri risultati suggeriscono un approccio promettente per la modellazione spazio-temporale scalabile e interpretabile dell'attività cerebrale. Il nostro codice è disponibile all'indirizzo https://github.com/beotborry/TABLeT.

English

Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.

Gli Autoencoder di Immagini Naturali Possono Tokenizzare Compattamente i Volumi fMRI per la Modellizzazione di Dinamiche a Lungo Raggio?

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

Abstract

Support