Brain-IT-VQA: De las señales cerebrales a las respuestas

Resumen

Decodificar el contenido visual a partir de señales de fMRI registradas mientras una persona observa imágenes, y específicamente responder preguntas sobre las imágenes vistas, es un desafío de larga data. Aunque en los últimos años se ha logrado un progreso significativo en la respuesta a preguntas visuales (VQA) a partir de fMRI, el rendimiento sigue siendo limitado. Además, si bien los modelos recientes pueden realizar predicciones cada vez más precisas, rara vez se han utilizado como herramientas para comprender la estructura de las representaciones visuales en el cerebro. Presentamos Brain-IT-VQA, un marco para la respuesta a preguntas visuales a partir de fMRI. Basado en el Transformer de Interacción Cerebral (Brain-IT), nuestro método decodifica tokens de lenguaje a partir de la actividad cerebral y los integra con un modelo de lenguaje para responder preguntas visuales. Nuestro modelo supera sustancialmente a enfoques previos de descripción de imágenes y VQA basados en fMRI. Además, introducimos NSD-VQA, un nuevo conjunto de datos y punto de referencia para la respuesta a preguntas visuales a partir de fMRI. A diferencia de los conjuntos de datos existentes de VQA con imágenes y fMRI, que típicamente proporcionan solo unas pocas preguntas amplias y débilmente controladas por imagen, NSD-VQA ofrece en promedio 20 pares de preguntas y respuestas por imagen en 20 categorías de preguntas controladas que desentrañan múltiples niveles de comprensión visual. Esto permite una evaluación más fiable e interpretable a pesar de los datos limitados de prueba de fMRI. En conjunto, Brain-IT-VQA y NSD-VQA proporcionan tanto un marco predictivo sólido como una herramienta para estudiar las representaciones cerebrales. Utilizando este punto de referencia, cuantificamos qué formas de información visual y semántica pueden decodificarse de manera fiable a partir de las respuestas de fMRI a imágenes naturales. Además, analizamos las contribuciones de diferentes regiones cerebrales según los tipos de preguntas.

English

Decoding visual content from fMRI signals recorded while a person views images, and specifically answering questions about the seen images, is a long-standing challenge. While significant progress has been made in recent years in visual question answering (VQA) from fMRI, performance remains limited. Moreover, although recent models can make increasingly accurate predictions, they have rarely been used as tools for understanding the structure of visual representations in the brain. We present Brain-IT-VQA, a framework for visual question answering from fMRI. Building on the Brain Interaction Transformer (Brain-IT), our method decodes language tokens from brain activity and integrates them with a language model to answer visual questions. Our model substantially outperforms previous fMRI-based captioning and VQA approaches. We further introduce NSD-VQA, a new dataset and benchmark for visual question answering from fMRI. Unlike existing image-fMRI VQA datasets, which typically provide only a few broad and weakly controlled questions per image, NSD-VQA provides on average 20 question-answer pairs per image across 20 controlled question categories that disentangle multiple levels of visual understanding. This enables more reliable and interpretable evaluation despite limited fMRI test data. Together, Brain-IT-VQA and NSD-VQA provide both a strong predictive framework and a tool for studying brain representations. Using this benchmark, we quantify which forms of visual and semantic information can be reliably decoded from fMRI responses to natural images. We further analyze the contributions of different brain regions across question types.