ChatPaper.aiChatPaper

GENIUS: Suite de Evaluación de Inteligencia Fluida Generativa

GENIUS: Generative Fluid Intelligence Evaluation Suite

February 11, 2026
Autores: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang
cs.AI

Resumen

Los Modelos Multimodales Unificados (UMMs) han mostrado un progreso notable en la generación visual. Sin embargo, los puntos de referencia existentes evalúan predominantemente la Inteligencia Cristalizada, que se basa en recordar conocimientos acumulados y esquemas aprendidos. Este enfoque pasa por alto la Inteligencia Fluida Generativa (GFI): la capacidad de inducir patrones, razonar mediante restricciones y adaptarse sobre la marcha a escenarios novedosos. Para evaluar rigurosamente esta capacidad, presentamos GENIUS (Suite de Evaluación de Inteligencia Fluida GEN). Formalizamos la GFI como una síntesis de tres primitivas. Estas incluyen la Inducción de Patrones Implícitos (por ejemplo, inferir preferencias visuales personalizadas), la Ejecución de Restricciones Ad-hoc (por ejemplo, visualizar metáforas abstractas) y la Adaptación al Conocimiento Contextual (por ejemplo, simular física contraintuitiva). Colectivamente, estas primitivas desafían a los modelos a resolver problemas basados completamente en el contexto inmediato. Nuestra evaluación sistemática de 12 modelos representativos revela déficits significativos de rendimiento en estas tareas. Crucialmente, nuestro análisis diagnóstico desentraña estos modos de fallo. Demuestra que los déficits provienen de una comprensión contextual limitada, y no de una capacidad generativa intrínseca insuficiente. Para cerrar esta brecha, proponemos una estrategia de intervención de atención que no requiere entrenamiento. En última instancia, GENIUS establece un estándar riguroso para la GFI, guiando al campo más allá de la utilización del conocimiento hacia un razonamiento dinámico y de propósito general. Nuestro conjunto de datos y código se publicarán en: https://github.com/arctanxarc/GENIUS.
English
Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess Crystallized Intelligence, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks Generative Fluid Intelligence (GFI): the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce GENIUS (GEN Fluid Intelligence EvalUation Suite). We formalize GFI as a synthesis of three primitives. These include Inducing Implicit Patterns (e.g., inferring personalized visual preferences), Executing Ad-hoc Constraints (e.g., visualizing abstract metaphors), and Adapting to Contextual Knowledge (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, GENIUS establishes a rigorous standard for GFI, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.
PDF421February 13, 2026