Brain-IT-VQA: Van hersensignalen naar antwoorden

Samenvatting

Het decoderen van visuele inhoud uit fMRI-signalen die worden opgenomen terwijl een persoon afbeeldingen bekijkt, en specifiek het beantwoorden van vragen over de geziene afbeeldingen, is een al lang bestaande uitdaging. Hoewel er de afgelopen jaren aanzienlijke vooruitgang is geboekt op het gebied van visuele vraagbeantwoording (VQA) op basis van fMRI, blijft de prestatie beperkt. Bovendien worden recente modellen, hoewel ze steeds nauwkeurigere voorspellingen kunnen doen, zelden gebruikt als hulpmiddelen om de structuur van visuele representaties in de hersenen te begrijpen. We presenteren Brain-IT-VQA, een raamwerk voor visuele vraagbeantwoording op basis van fMRI. Voortbouwend op de Brain Interaction Transformer (Brain-IT) decodeert onze methode taaltekens uit hersenactiviteit en integreert deze met een taalmodel om visuele vragen te beantwoorden. Ons model presteert aanzienlijk beter dan eerdere op fMRI gebaseerde methoden voor bijschrijving en VQA. We introduceren verder NSD-VQA, een nieuwe dataset en benchmark voor visuele vraagbeantwoording op basis van fMRI. In tegenstelling tot bestaande beeld-fMRI VQA-datasets, die doorgaans slechts enkele brede en zwak gecontroleerde vragen per afbeelding bieden, levert NSD-VQA gemiddeld 20 vraag-antwoordparen per afbeelding in 20 gecontroleerde vraagcategorieën die meerdere niveaus van visueel begrip ontwarren. Dit maakt een betrouwbaardere en interpreteerbaardere evaluatie mogelijk, ondanks beperkte fMRI-testgegevens. Samen bieden Brain-IT-VQA en NSD-VQA zowel een krachtig voorspellend raamwerk als een hulpmiddel voor het bestuderen van hersenrepresentaties. Met behulp van deze benchmark kwantificeren we welke vormen van visuele en semantische informatie betrouwbaar kunnen worden gedecodeerd uit fMRI-reacties op natuurlijke afbeeldingen. We analyseren verder de bijdragen van verschillende hersengebieden per vraagtype.

English

Decoding visual content from fMRI signals recorded while a person views images, and specifically answering questions about the seen images, is a long-standing challenge. While significant progress has been made in recent years in visual question answering (VQA) from fMRI, performance remains limited. Moreover, although recent models can make increasingly accurate predictions, they have rarely been used as tools for understanding the structure of visual representations in the brain. We present Brain-IT-VQA, a framework for visual question answering from fMRI. Building on the Brain Interaction Transformer (Brain-IT), our method decodes language tokens from brain activity and integrates them with a language model to answer visual questions. Our model substantially outperforms previous fMRI-based captioning and VQA approaches. We further introduce NSD-VQA, a new dataset and benchmark for visual question answering from fMRI. Unlike existing image-fMRI VQA datasets, which typically provide only a few broad and weakly controlled questions per image, NSD-VQA provides on average 20 question-answer pairs per image across 20 controlled question categories that disentangle multiple levels of visual understanding. This enables more reliable and interpretable evaluation despite limited fMRI test data. Together, Brain-IT-VQA and NSD-VQA provide both a strong predictive framework and a tool for studying brain representations. Using this benchmark, we quantify which forms of visual and semantic information can be reliably decoded from fMRI responses to natural images. We further analyze the contributions of different brain regions across question types.