BrainExplore: ヒト脳内における解釈可能な視覚表現の大規模発見
BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain
December 9, 2025
著者: Navve Wasserman, Matias Cosarinsky, Yuval Golbari, Aude Oliva, Antonio Torralba, Tamar Rott Shaham, Michal Irani
cs.AI
要旨
人間の脳が視覚的概念をどのように表現し、それらの表現がどの脳領域に符号化されているかを理解することは、長年の課題として残っている。数十年にわたる研究により視覚的表現の理解は進展したものの、脳信号は依然として大規模かつ複雑であり、可能な視覚的概念の空間は広大である。その結果、ほとんどの研究は小規模なままであり、手動検査に依存し、特定の領域と特性に焦点を当て、体系的な検証を含むことは稀である。本論文では、人間の大脳皮質全体にわたる視覚的表現を発見し説明するための大規模で自動化された枠組みを提案する。私たちの手法は主に二つの段階から構成される。第一に、教師なしのデータ駆動型分解手法を通じてfMRI活動中の解釈可能なパターン候補を発見する。次に、各パターンを最も強く誘発する自然画像群を同定し、それらが共有する視覚的意味の自然言語記述を生成することで説明する。このプロセスを拡張するため、複数の説明候補をテストし、定量的な信頼性スコアを割り当て、各ボクセルパターンに対して最も一貫性のある記述を選択する自動化パイプラインを導入する。私たちの枠組みは、これまで報告されていなかった微細な表現を含む、多数の異なる視覚的概念にわたる数千の解釈可能なパターンを明らかにする。
English
Understanding how the human brain represents visual concepts, and in which brain regions these representations are encoded, remains a long-standing challenge. Decades of work have advanced our understanding of visual representations, yet brain signals remain large and complex, and the space of possible visual concepts is vast. As a result, most studies remain small-scale, rely on manual inspection, focus on specific regions and properties, and rarely include systematic validation. We present a large-scale, automated framework for discovering and explaining visual representations across the human cortex. Our method comprises two main stages. First, we discover candidate interpretable patterns in fMRI activity through unsupervised, data-driven decomposition methods. Next, we explain each pattern by identifying the set of natural images that most strongly elicit it and generating a natural-language description of their shared visual meaning. To scale this process, we introduce an automated pipeline that tests multiple candidate explanations, assigns quantitative reliability scores, and selects the most consistent description for each voxel pattern. Our framework reveals thousands of interpretable patterns spanning many distinct visual concepts, including fine-grained representations previously unreported.