GENIUS: 생성적 유체 지능 평가 스위트
GENIUS: Generative Fluid Intelligence Evaluation Suite
February 11, 2026
저자: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang
cs.AI
초록
통합 멀티모달 모델(UMM)은 시각 생성 분야에서 놀라운 발전을 보여주고 있습니다. 그러나 기존 벤치마크는 주로 축적된 지식과 학습된 스키마에 의존하는 '결정화 지능'을 평가하는 데 집중되어 있습니다. 이러한 접근은 패턴을 추론하고, 제약 조건을 통해 추리하며, 새로운 시나리오에 즉각적으로 적응하는 능력인 '생성적 유동 지능'(GFI)을 간과하고 있습니다. 이 능력을 엄격하게 평가하기 위해 우리는 GENIUS(GEN Fluid Intelligence EvalUation Suite)를 소개합니다. 우리는 GFI를 세 가지 기본 요소의 종합으로 정형화합니다. 여기에는 암묵적 패턴 추론(예: 개인화된 시각적 선호도 추론), 임시 제약 조건 실행(예: 추상적 은유 시각화), 상황적 지식 적응(예: 반직관적 물리 시뮬레이션)이 포함됩니다. 이러한 기본 요소들은 모델이 오직 현재 상황에 기반하여 문제를 해결하도록 요구합니다. 12개의 대표 모델에 대한 체계적인 평가 결과, 이러한 과제에서 모델들의 성능이 현저히 부족한 것으로 나타났습니다. 중요한 것은 우리의 진단 분석이 이러한 실패 원인을 분리해 보여준다는 점입니다. 이 분석은 성능 부족이 본질적인 생성 능력의 한계가 아닌 제한된 상황 이해력에서 비롯됨을 입증합니다. 이러한 격차를 해소하기 위해 우리는 추가 학습이 필요 없는 주의 메커니즘 개입 전략을 제안합니다. 궁극적으로 GENIUS는 GFI에 대한 엄격한 기준을 수립하여, 해당 분야가 지식 활용을 넘어 동적이고 범용적인 추론 능력으로 나아가는 길을 제시합니다. 우리의 데이터셋과 코드는 https://github.com/arctanxarc/GENIUS 에서 공개될 예정입니다.
English
Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess Crystallized Intelligence, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks Generative Fluid Intelligence (GFI): the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce GENIUS (GEN Fluid Intelligence EvalUation Suite). We formalize GFI as a synthesis of three primitives. These include Inducing Implicit Patterns (e.g., inferring personalized visual preferences), Executing Ad-hoc Constraints (e.g., visualizing abstract metaphors), and Adapting to Contextual Knowledge (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, GENIUS establishes a rigorous standard for GFI, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.