¿Pueden los autocodificadores de imágenes naturales tokenizar de forma compacta volúmenes de fMRI para el modelado de dinámicas de largo alcance?

Resumen

La modelización de dinámicas espaciotemporales de largo alcance en imágenes por resonancia magnética funcional (fMRI) sigue siendo un desafío clave debido a la alta dimensionalidad de las señales cuadridimensionales. Los modelos previos basados en vóxeles, aunque demuestran un rendimiento excelente y capacidades interpretativas, están limitados por demandas de memoria prohibitivas y, por tanto, solo pueden capturar ventanas temporales limitadas. Para abordar esto, proponemos TABLeT (Transformador de Espacio Latente Cerebral Codificado Bidimensionalmente), un enfoque novedoso que tokeniza volúmenes de fMRI utilizando un autocodificador preentrenado de imágenes naturales 2D. Cada volumen 3D de fMRI se comprime en un conjunto compacto de tokens continuos, permitiendo el modelado de secuencias largas con un simple codificador Transformer con VRAM limitada. En benchmarks a gran escala que incluyen el UK-Biobank (UKB), el Human Connectome Project (HCP) y los conjuntos de datos ADHD-200, TABLeT supera a los modelos existentes en múltiples tareas, mientras demuestra ganancias sustanciales en eficiencia computacional y de memoria respecto al método de vóxeles más avanzado con la misma entrada. Además, desarrollamos un enfoque de modelado de tokens enmascarados auto-supervisado para preentrenar TABLeT, lo que mejora el rendimiento del modelo para diversas tareas posteriores. Nuestros hallazgos sugieren un enfoque prometedor para el modelado espaciotemporal escalable e interpretable de la actividad cerebral. Nuestro código está disponible en https://github.com/beotborry/TABLeT.

English

Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available at https://github.com/beotborry/TABLeT.

¿Pueden los autocodificadores de imágenes naturales tokenizar de forma compacta volúmenes de fMRI para el modelado de dinámicas de largo alcance?

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

Resumen

Support