GENIUS: Комплексная оценка генеративной текучести интеллекта
GENIUS: Generative Fluid Intelligence Evaluation Suite
February 11, 2026
Авторы: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang
cs.AI
Аннотация
Унифицированные мультимодальные модели (UMM) демонстрируют значительный прогресс в области визуальной генерации. Однако существующие бенчмарки в основном оценивают кристаллизованный интеллект, который опирается на воспроизведение накопленных знаний и усвоенных схем. Такой подход упускает из виду генеративный флюидный интеллект (GFI) — способность выявлять закономерности, рассуждать в рамках ограничений и адаптироваться к новым сценариям на лету. Для строгой оценки этой способности мы представляем GENIUS (GEN Fluid Intelligence EvalUation Suite). Мы формализуем GFI как синтез трёх примитивов: выявление имплицитных паттернов (например, вывод персональных визуальных предпочтений), выполнение ад-хок ограничений (например, визуализация абстрактных метафор) и адаптация к контекстуальным знаниям (например, симуляция контр-интуитивной физики). В совокупности эти примитивы требуют от моделей решения задач, полностью основанных на непосредственном контексте. Наше систематическое тестирование 12 репрезентативных моделей выявило существенные пробелы в производительности при решении этих задач. Ключевой результат диагностического анализа состоит в том, что эти неудачи обусловлены ограниченным пониманием контекста, а не недостаточной внутренней генеративной способностью. Для преодоления этого разрыва мы предлагаем стратегию вмешательства в механизм внимания, не требующую дообучения. В конечном счёте, GENIUS устанавливает строгий стандарт для оценки GFI, направляя область исследований от использования знаний к динамическому общему рассуждению. Наш набор данных и код будут доступны по адресу: https://github.com/arctanxarc/GENIUS.
English
Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess Crystallized Intelligence, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks Generative Fluid Intelligence (GFI): the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce GENIUS (GEN Fluid Intelligence EvalUation Suite). We formalize GFI as a synthesis of three primitives. These include Inducing Implicit Patterns (e.g., inferring personalized visual preferences), Executing Ad-hoc Constraints (e.g., visualizing abstract metaphors), and Adapting to Contextual Knowledge (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, GENIUS establishes a rigorous standard for GFI, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.