Kunnen natuurlijke beeld-auto-encoders fMRI-volumes compact tokeniseren voor modellering van langeafstands-dynamiek?

Samenvatting

Het modelleren van langetermijn ruimtelijk-temporele dynamiek in functionele Magnetic Resonance Imaging (fMRI) blijft een grote uitdaging vanwege de hoge dimensionaliteit van de vierdimensionale signalen. Bestaande voxelgebaseerde modellen, hoewel ze uitstekende prestaties en interpretatiemogelijkheden vertonen, worden beperkt door buitensporige geheugeneisen en kunnen daardoor slechts beperkte temporele vensters vastleggen. Om dit aan te pakken, stellen we TABLeT voor (Two-dimensionally Autoencoded Brain Latent Transformer), een nieuwe aanpak die fMRI-volumes tokeniseert met behulp van een vooraf getrainde 2D-natuurbeeld-auto-encoder. Elk 3D-fMRI-volume wordt gecomprimeerd tot een compacte set continue tokens, waardoor modellering van lange sequenties mogelijk wordt met een eenvoudige Transformer-encoder met beperkt VRAM. Op grootschalige benchmarks, waaronder de UK-Biobank (UKB), het Human Connectome Project (HCP) en de ADHD-200-datasets, presteert TABLeT beter dan bestaande modellen bij meerdere taken, en laat het aanzienlijke winst zien in reken- en geheugenefficiëntie vergeleken met de state-of-the-art voxelgebaseerde methode bij dezelfde invoer. Verder ontwikkelen we een zelfgesuperviseerde aanpak voor gemaskeerde tokenmodellering om TABLeT voor te trainen, wat de prestaties van het model voor verschillende downstreamtaken verbetert. Onze bevindingen suggereren een veelbelovende aanpak voor schaalbare en interpreteerbare ruimtelijk-temporele modellering van hersenactiviteit. Onze code is beschikbaar op https://github.com/beotborry/TABLeT.

English

Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.

Kunnen natuurlijke beeld-auto-encoders fMRI-volumes compact tokeniseren voor modellering van langeafstands-dynamiek?

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

Samenvatting

Support