Brain-IT-VQA: Von Gehirnsignalen zu Antworten

Zusammenfassung

Die Dekodierung visueller Inhalte aus fMRT-Signalen, die während der Betrachtung von Bildern aufgezeichnet werden, und insbesondere die Beantwortung von Fragen zu den gesehenen Bildern ist eine seit langem bestehende Herausforderung. Obwohl in den letzten Jahren bedeutende Fortschritte bei der visuellen Fragebeantwortung (VQA) mittels fMRT erzielt wurden, bleibt die Leistung begrenzt. Darüber hinaus werden aktuelle Modelle, obwohl sie zunehmend genauere Vorhersagen treffen können, selten als Werkzeuge zum Verständnis der Struktur visueller Repräsentationen im Gehirn eingesetzt. Wir stellen Brain-IT-VQA vor, ein Framework für die visuelle Fragebeantwortung aus fMRT-Daten. Aufbauend auf dem Brain Interaction Transformer (Brain-IT) dekodiert unsere Methode Sprachtoken aus der Gehirnaktivität und integriert diese mit einem Sprachmodell, um visuelle Fragen zu beantworten. Unser Modell übertrifft frühere fMRT-basierte Ansätze zur Bildbeschreibung und VQA deutlich. Darüber hinaus führen wir NSD-VQA ein, einen neuen Datensatz und Benchmark für die visuelle Fragebeantwortung aus fMRT-Daten. Im Gegensatz zu bestehenden Bild-fMRT-VQA-Datensätzen, die typischerweise nur wenige breite und schwach kontrollierte Fragen pro Bild bereitstellen, bietet NSD-VQA durchschnittlich 20 Frage-Antwort-Paare pro Bild über 20 kontrollierte Fragenkategorien hinweg, die mehrere Ebenen des visuellen Verständnisses aufschlüsseln. Dies ermöglicht eine zuverlässigere und interpretierbarere Bewertung trotz begrenzter fMRT-Testdaten. Zusammen bieten Brain-IT-VQA und NSD-VQA sowohl ein leistungsstarkes Vorhersageframework als auch ein Werkzeug zur Untersuchung von Gehirnrepräsentationen. Mit diesem Benchmark quantifizieren wir, welche Formen visueller und semantischer Informationen zuverlässig aus fMRT-Antworten auf natürliche Bilder dekodiert werden können. Darüber hinaus analysieren wir die Beiträge verschiedener Gehirnregionen über Fragetypen hinweg.

English

Decoding visual content from fMRI signals recorded while a person views images, and specifically answering questions about the seen images, is a long-standing challenge. While significant progress has been made in recent years in visual question answering (VQA) from fMRI, performance remains limited. Moreover, although recent models can make increasingly accurate predictions, they have rarely been used as tools for understanding the structure of visual representations in the brain. We present Brain-IT-VQA, a framework for visual question answering from fMRI. Building on the Brain Interaction Transformer (Brain-IT), our method decodes language tokens from brain activity and integrates them with a language model to answer visual questions. Our model substantially outperforms previous fMRI-based captioning and VQA approaches. We further introduce NSD-VQA, a new dataset and benchmark for visual question answering from fMRI. Unlike existing image-fMRI VQA datasets, which typically provide only a few broad and weakly controlled questions per image, NSD-VQA provides on average 20 question-answer pairs per image across 20 controlled question categories that disentangle multiple levels of visual understanding. This enables more reliable and interpretable evaluation despite limited fMRI test data. Together, Brain-IT-VQA and NSD-VQA provide both a strong predictive framework and a tool for studying brain representations. Using this benchmark, we quantify which forms of visual and semantic information can be reliably decoded from fMRI responses to natural images. We further analyze the contributions of different brain regions across question types.