ChatPaper.aiChatPaper

GENIUS: 生成的流動性知能評価スイート

GENIUS: Generative Fluid Intelligence Evaluation Suite

February 11, 2026
著者: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang
cs.AI

要旨

統合マルチモーダルモデル(UMM)は、視覚的生成において顕著な進歩を示している。しかし、既存のベンチマークは主に、蓄積された知識と学習されたスキーマに依存する「結晶性知能」を評価するものに偏っている。この偏りは、「生成的流動性知能(GFI)」、すなわち、パターンを帰納し、制約を通じて推論し、その場で新しいシナリオに適応する能力を見落としている。この能力を厳密に評価するため、我々はGENIUS(GEN Fluid Intelligence EvalUation Suite)を提案する。我々はGFIを3つの基本要素の統合として形式化する。これには、「暗黙的パターンの帰納(例:個人化された視覚的選好の推論)」、「アドホックな制約の実行(例:抽象的な比喩の可視化)」、「文脈的知識への適応(例:直感に反する物理現象のシミュレーション)」が含まれる。これらの基本要素は、モデルが即時の文脈に完全に基づいて問題を解決することを要求する。代表的な12のモデルに対する体系的な評価により、これらのタスクにおいて性能が大幅に不足していることが明らかになった。決定的に、我々の診断的分析はこれらの失敗モードを分解し、不足が内在的な生成能力の不足ではなく、文脈理解の限界に起因することを実証する。この隔たりを埋めるため、訓練を必要としない注意メカニズム介入戦略を提案する。最終的に、GENIUSはGFIに対する厳密な基準を確立し、知識利用を超え、動的で汎用的な推論へと分野を導く。データセットとコードはhttps://github.com/arctanxarc/GENIUS で公開予定である。
English
Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess Crystallized Intelligence, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks Generative Fluid Intelligence (GFI): the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce GENIUS (GEN Fluid Intelligence EvalUation Suite). We formalize GFI as a synthesis of three primitives. These include Inducing Implicit Patterns (e.g., inferring personalized visual preferences), Executing Ad-hoc Constraints (e.g., visualizing abstract metaphors), and Adapting to Contextual Knowledge (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, GENIUS establishes a rigorous standard for GFI, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.
PDF421February 13, 2026