Os Autoencoders de Imagens Naturais Podem Tokenizar Compactamente Volumes de fMRI para Modelagem de Dinâmicas de Longo Alcance?

Resumo

A modelagem de dinâmicas espaço-temporais de longo alcance em ressonância magnética funcional (fMRI) permanece um desafio central devido à alta dimensionalidade dos sinais quadridimensionais. Modelos prévios baseados em vóxels, embora demonstrem excelente desempenho e capacidade de interpretação, são limitados por demandas de memória proibitivas e, portanto, só conseguem capturar janelas temporais limitadas. Para resolver isso, propomos o TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), uma abordagem inovadora que tokeniza volumes de fMRI usando um autoencoder de imagens naturais 2D pré-treinado. Cada volume 3D de fMRI é comprimido em um conjunto compacto de tokens contínuos, permitindo a modelagem de sequências longas com um simples codificador Transformer com VRAM limitado. Em benchmarks de larga escala, incluindo o UK-Biobank (UKB), o Human Connectome Project (HCP) e os conjuntos de dados ADHD-200, o TABLeT supera os modelos existentes em múltiplas tarefas, demonstrando ganhos substanciais em eficiência computacional e de memória em relação ao método state-of-the-art baseado em vóxels com a mesma entrada. Além disso, desenvolvemos uma abordagem de modelagem de tokens mascarados auto supervisionada para pré-treinar o TABLeT, o que melhora o desempenho do modelo para várias tarefas subsequentes. Nossos achados sugerem uma abordagem promissora para a modelagem espaço-temporal escalável e interpretável da atividade cerebral. Nosso código está disponível em https://github.com/beotborry/TABLeT.

English

Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.

Os Autoencoders de Imagens Naturais Podem Tokenizar Compactamente Volumes de fMRI para Modelagem de Dinâmicas de Longo Alcance?

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

Resumo

Support