GENIUS: Suíte de Avaliação de Inteligência Fluida Generativa

Resumo

Os Modelos Multimodais Unificados (UMMs) têm demonstrado progressos notáveis na geração visual. No entanto, os *benchmarks* existentes avaliam predominantemente a Inteligência Cristalizada, que depende da recordação de conhecimento acumulado e de esquemas aprendidos. Este foco negligencia a Inteligência Fluida Gerativa (GFI): a capacidade de induzir padrões, raciocinar através de restrições e adaptar-se a cenários novos em tempo real. Para avaliar rigorosamente esta capacidade, introduzimos o GENIUS (*GEN Fluid Intelligence EvalUation Suite*). Formalizamos a GFI como uma síntese de três primitivas. Estas incluem a Indução de Padrões Implícitos (ex.: inferir preferências visuais personalizadas), a Execução de Restrições *Ad-hoc* (ex.: visualizar metáforas abstratas) e a Adaptação a Conhecimento Contextual (ex.: simular física contra-intuitiva). Coletivamente, estas primitivas desafiam os modelos a resolver problemas inteiramente baseados no contexto imediato. A nossa avaliação sistemática de 12 modelos representativos revela défices de desempenho significativos nestas tarefas. Crucialmente, a nossa análise diagnóstica desagrega estes modos de falha. Ela demonstra que os défices resultam de uma compreensão contextual limitada, e não de uma capacidade gerativa intrínseca insuficiente. Para colmatar esta lacuna, propomos uma estratégia de intervenção de atenção sem necessidade de treino. Em última análise, o GENIUS estabelece um padrão rigoroso para a GFI, orientando a área para lá da utilização de conhecimento, em direção a um raciocínio dinâmico e de propósito geral. O nosso conjunto de dados e código serão disponibilizados em: https://github.com/arctanxarc/GENIUS.

English

Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess Crystallized Intelligence, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks Generative Fluid Intelligence (GFI): the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce GENIUS (GEN Fluid Intelligence EvalUation Suite). We formalize GFI as a synthesis of three primitives. These include Inducing Implicit Patterns (e.g., inferring personalized visual preferences), Executing Ad-hoc Constraints (e.g., visualizing abstract metaphors), and Adapting to Contextual Knowledge (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, GENIUS establishes a rigorous standard for GFI, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.

GENIUS: Suíte de Avaliação de Inteligência Fluida Generativa

GENIUS: Generative Fluid Intelligence Evaluation Suite

Resumo

Support