GENIUS: Suite di Valutazione dell'Intelligenza Fluida Generativa

Abstract

I Modelli Multimodali Unificati (UMM) hanno mostrato progressi notevoli nella generazione visiva. Tuttavia, i benchmark esistenti valutano prevalentemente l'Intelligenza Cristallizzata, che si basa sul richiamo di conoscenze accumulate e schemi appresi. Questo approccio trascura l'Intelligenza Fluida Generativa (GFI): la capacità di indurre pattern, ragionare attraverso vincoli e adattarsi a scenari nuovi in tempo reale. Per valutare rigorosamente questa capacità, introduciamo GENIUS (GEN Fluid Intelligence EvalUation Suite). Formalizziamo la GFI come una sintesi di tre primitive. Queste includono l'Induzione di Pattern Impliciti (ad esempio, dedurre preferenze visive personalizzate), l'Esecuzione di Vincoli Ad-hoc (ad esempio, visualizzare metafore astratte) e l'Adattamento alla Conoscenza Contestuale (ad esempio, simulare fisica contro-intuitiva). Collettivamente, queste primitive mettono alla prova i modelli nel risolvere problemi basati interamente sul contesto immediato. La nostra valutazione sistematica di 12 modelli rappresentativi rivela deficit significativi di prestazione in questi compiti. Crucialmente, la nostra analisi diagnostica distingue queste modalità di fallimento. Dimostra che i deficit derivano da una comprensione contestuale limitata piuttosto che da un'intrinseca capacità generativa insufficiente. Per colmare questa lacuna, proponiamo una strategia di intervento sull'attenzione senza addestramento. In definitiva, GENIUS stabilisce uno standard rigoroso per la GFI, guidando il campo oltre l'utilizzo della conoscenza verso un ragionamento dinamico e di uso generale. Il nostro dataset e il codice saranno rilasciati su: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.

English

Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess Crystallized Intelligence, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks Generative Fluid Intelligence (GFI): the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce GENIUS (GEN Fluid Intelligence EvalUation Suite). We formalize GFI as a synthesis of three primitives. These include Inducing Implicit Patterns (e.g., inferring personalized visual preferences), Executing Ad-hoc Constraints (e.g., visualizing abstract metaphors), and Adapting to Contextual Knowledge (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, GENIUS establishes a rigorous standard for GFI, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.

GENIUS: Suite di Valutazione dell'Intelligenza Fluida Generativa

GENIUS: Generative Fluid Intelligence Evaluation Suite

Abstract

Support