Brain-IT-VQA: От сигналов мозга к ответам

Аннотация

Декодирование визуального содержания из сигналов фМРТ, записанных во время просмотра изображений, и, в частности, ответы на вопросы о просмотренных изображениях, является давней задачей. Несмотря на значительный прогресс, достигнутый в последние годы в области визуального ответа на вопросы (VQA) на основе фМРТ, производительность остается ограниченной. Более того, хотя современные модели могут делать все более точные прогнозы, они редко использовались в качестве инструментов для понимания структуры визуальных репрезентаций в мозге. Мы представляем Brain-IT-VQA — фреймворк для визуального ответа на вопросы на основе фМРТ. Основываясь на Brain Interaction Transformer (Brain-IT), наш метод декодирует языковые токены из активности мозга и интегрирует их с языковой моделью для ответа на визуальные вопросы. Наша модель значительно превосходит предыдущие подходы к подписыванию изображений и VQA на основе фМРТ. Мы также представляем NSD-VQA — новый набор данных и эталон для визуального ответа на вопросы на основе фМРТ. В отличие от существующих наборов данных изображение-фМРТ для VQA, которые обычно предоставляют лишь несколько общих и слабо контролируемых вопросов на изображение, NSD-VQA предлагает в среднем 20 пар вопрос-ответ на изображение по 20 контролируемым категориям вопросов, которые разделяют несколько уровней визуального понимания. Это обеспечивает более надежную и интерпретируемую оценку, несмотря на ограниченность тестовых данных фМРТ. Вместе Brain-IT-VQA и NSD-VQA предоставляют как мощный предсказательный фреймворк, так и инструмент для изучения репрезентаций мозга. Используя этот эталон, мы количественно оцениваем, какие формы визуальной и семантической информации могут быть надежно декодированы из ответов фМРТ на натуральные изображения. Мы также анализируем вклад различных областей мозга в зависимости от типов вопросов.

English

Decoding visual content from fMRI signals recorded while a person views images, and specifically answering questions about the seen images, is a long-standing challenge. While significant progress has been made in recent years in visual question answering (VQA) from fMRI, performance remains limited. Moreover, although recent models can make increasingly accurate predictions, they have rarely been used as tools for understanding the structure of visual representations in the brain. We present Brain-IT-VQA, a framework for visual question answering from fMRI. Building on the Brain Interaction Transformer (Brain-IT), our method decodes language tokens from brain activity and integrates them with a language model to answer visual questions. Our model substantially outperforms previous fMRI-based captioning and VQA approaches. We further introduce NSD-VQA, a new dataset and benchmark for visual question answering from fMRI. Unlike existing image-fMRI VQA datasets, which typically provide only a few broad and weakly controlled questions per image, NSD-VQA provides on average 20 question-answer pairs per image across 20 controlled question categories that disentangle multiple levels of visual understanding. This enables more reliable and interpretable evaluation despite limited fMRI test data. Together, Brain-IT-VQA and NSD-VQA provide both a strong predictive framework and a tool for studying brain representations. Using this benchmark, we quantify which forms of visual and semantic information can be reliably decoded from fMRI responses to natural images. We further analyze the contributions of different brain regions across question types.