ChatPaper.aiChatPaper

GENIUS : Suite d'Évaluation de l'Intelligence Fluide Générative

GENIUS: Generative Fluid Intelligence Evaluation Suite

February 11, 2026
papers.authors: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang
cs.AI

papers.abstract

Les modèles multimodaux unifiés (UMM) ont montré des progrès remarquables en génération visuelle. Pourtant, les benchmarks existants évaluent principalement l'intelligence cristallisée, qui repose sur le rappel de connaissances accumulées et de schémas appris. Cette focalisation néglige l'intelligence fluide générative (GFI) : la capacité à induire des motifs, à raisonner via des contraintes et à s'adapter à de nouveaux scénarios à la volée. Pour évaluer rigoureusement cette capacité, nous présentons GENIUS (GEN Fluid Intelligence EvalUation Suite). Nous formalisons la GFI comme une synthèse de trois primitives. Celles-ci incluent l'induction de motifs implicites (par exemple, déduire des préférences visuelles personnalisées), l'exécution de contraintes ad hoc (par exemple, visualiser des métaphores abstraites) et l'adaptation à des connaissances contextuelles (par exemple, simuler une physique contre-intuitive). Collectivement, ces primitives mettent les modèles au défi de résoudre des problèmes entièrement ancrés dans le contexte immédiat. Notre évaluation systématique de 12 modèles représentatifs révèle des déficits de performance significatifs dans ces tâches. Surtout, notre analyse diagnostique démêle ces modes d'échec. Elle démontre que les déficits proviennent d'une compréhension contextuelle limitée plutôt que d'une capacité générative intrinsèque insuffisante. Pour combler cette lacune, nous proposons une stratégie d'intervention attentionnelle sans apprentissage. En définitive, GENIUS établit un standard rigoureux pour la GFI, guidant le domaine au-delà de l'utilisation des connaissances vers un raisonnement dynamique et généraliste. Notre jeu de données et notre code seront publiés à l'adresse : https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.
English
Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess Crystallized Intelligence, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks Generative Fluid Intelligence (GFI): the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce GENIUS (GEN Fluid Intelligence EvalUation Suite). We formalize GFI as a synthesis of three primitives. These include Inducing Implicit Patterns (e.g., inferring personalized visual preferences), Executing Ad-hoc Constraints (e.g., visualizing abstract metaphors), and Adapting to Contextual Knowledge (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, GENIUS establishes a rigorous standard for GFI, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.
PDF421February 13, 2026