GENIUS: Generative Fluid Intelligence Evaluation Suite
GENIUS: Generative Fluid Intelligence Evaluation Suite
February 11, 2026
papers.authors: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang
cs.AI
papers.abstract
Einheitliche multimodale Modelle (UMMs) haben bemerkenswerte Fortschritte in der visuellen Generierung gezeigt. Bisherige Benchmarks bewerten jedoch überwiegend kristallisierte Intelligenz, die auf dem Abruf von angesammeltem Wissen und erlernten Schemata basiert. Dieser Fokus übersieht generative fluide Intelligenz (GFI): die Fähigkeit, Muster zu induzieren, durch Restriktionen zu schlussfolgern und sich spontan an neue Szenarien anzupassen. Um diese Fähigkeit rigoros zu bewerten, führen wir GENIUS (GEN Fluid Intelligence EvalUation Suite) ein. Wir formalisieren GFI als eine Synthese aus drei Grundfähigkeiten. Diese umfassen das Induzieren impliziter Muster (z.B. das Erschließen personalisierter visueller Präferenzen), das Ausführen ad-hoc-Restriktionen (z.B. die Visualisierung abstrakter Metaphern) und die Anpassung an kontextuelles Wissen (z.B. die Simulation kontraintuitiver Physik). Gemeinsam fordern diese Grundfähigkeiten Modelle heraus, Probleme zu lösen, die vollständig im unmittelbaren Kontext verankert sind. Unsere systematische Evaluation von 12 repräsentativen Modellen zeigt erhebliche Leistungsdefizite bei diesen Aufgaben. Entscheidend ist, dass unsere diagnostische Analyse diese Fehlermodi entwirrt. Sie zeigt, dass die Defizite von einem begrenzten Kontextverständnis herrühren und nicht von unzureichender intrinsischer Generierungsfähigkeit. Um diese Lücke zu schließen, schlagen wir eine trainierungsfreie Attention-Interventionsstrategie vor. Letztlich etabliert GENIUS einen rigorosen Standard für GFI und leitet das Feld über die Wissensnutzung hinaus hin zu dynamischem, allgemeinem Schlussfolgern. Unser Datensatz und Code werden veröffentlicht unter: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.
English
Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess Crystallized Intelligence, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks Generative Fluid Intelligence (GFI): the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce GENIUS (GEN Fluid Intelligence EvalUation Suite). We formalize GFI as a synthesis of three primitives. These include Inducing Implicit Patterns (e.g., inferring personalized visual preferences), Executing Ad-hoc Constraints (e.g., visualizing abstract metaphors), and Adapting to Contextual Knowledge (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, GENIUS establishes a rigorous standard for GFI, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.