Brain-IT-VQA : Des signaux cérébraux aux réponses

Résumé

Décoder le contenu visuel à partir de signaux IRMf enregistrés pendant qu'une personne regarde des images, et plus spécifiquement répondre à des questions sur les images vues, est un défi de longue date. Bien que des progrès significatifs aient été réalisés ces dernières années en matière de réponse à des questions visuelles (VQA) à partir de l'IRMf, les performances restent limitées. De plus, bien que les modèles récents puissent faire des prédictions de plus en plus précises, ils ont rarement été utilisés comme outils pour comprendre la structure des représentations visuelles dans le cerveau. Nous présentons Brain-IT-VQA, un cadre pour la réponse à des questions visuelles à partir de l'IRMf. S'appuyant sur le Brain Interaction Transformer (Brain-IT), notre méthode décode des jetons de langage à partir de l'activité cérébrale et les intègre à un modèle de langage pour répondre à des questions visuelles. Notre modèle surpasse considérablement les approches précédentes de légendage et de VQA basées sur l'IRMf. Nous introduisons également NSD-VQA, un nouvel ensemble de données et un benchmark pour la réponse à des questions visuelles à partir de l'IRMf. Contrairement aux ensembles de données VQA image-IRMf existants, qui ne fournissent généralement que quelques questions larges et faiblement contrôlées par image, NSD-VQA fournit en moyenne 20 paires question-réponse par image réparties dans 20 catégories de questions contrôlées qui démêlent plusieurs niveaux de compréhension visuelle. Cela permet une évaluation plus fiable et interprétable malgré des données de test IRMf limitées. Ensemble, Brain-IT-VQA et NSD-VQA fournissent à la fois un cadre prédictif solide et un outil pour étudier les représentations cérébrales. En utilisant ce benchmark, nous quantifions quelles formes d'informations visuelles et sémantiques peuvent être décodées de manière fiable à partir des réponses IRMf à des images naturelles. Nous analysons en outre les contributions de différentes régions du cerveau selon les types de questions.

English

Decoding visual content from fMRI signals recorded while a person views images, and specifically answering questions about the seen images, is a long-standing challenge. While significant progress has been made in recent years in visual question answering (VQA) from fMRI, performance remains limited. Moreover, although recent models can make increasingly accurate predictions, they have rarely been used as tools for understanding the structure of visual representations in the brain. We present Brain-IT-VQA, a framework for visual question answering from fMRI. Building on the Brain Interaction Transformer (Brain-IT), our method decodes language tokens from brain activity and integrates them with a language model to answer visual questions. Our model substantially outperforms previous fMRI-based captioning and VQA approaches. We further introduce NSD-VQA, a new dataset and benchmark for visual question answering from fMRI. Unlike existing image-fMRI VQA datasets, which typically provide only a few broad and weakly controlled questions per image, NSD-VQA provides on average 20 question-answer pairs per image across 20 controlled question categories that disentangle multiple levels of visual understanding. This enables more reliable and interpretable evaluation despite limited fMRI test data. Together, Brain-IT-VQA and NSD-VQA provide both a strong predictive framework and a tool for studying brain representations. Using this benchmark, we quantify which forms of visual and semantic information can be reliably decoded from fMRI responses to natural images. We further analyze the contributions of different brain regions across question types.