GGBench: 통합 멀티모달 모델을 위한 기하학적 생성 추론 벤치마크
GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models
November 14, 2025
저자: Jingxuan Wei, Caijun Jia, Xi Bai, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Lijun Wu, Cheng Tan
cs.AI
초록
통합 멀티모달 모델(UMMs)의 등장은 인공지능 분야에서 패러다임 전환을 의미하며, 수동적 인식에서 능동적인 교차 모달 생성으로의 전환을 가져왔습니다. 이러한 모델들은 정보를 종합하는 전례 없는 능력을 보여주지만, 평가 측면에서는 중요한 격차가 지속되고 있습니다. 기존 벤치마크는 주로 판별적 이해나 제약 없는 이미지 생성을 개별적으로 평가할 뿐, 생성적 추론의 통합 인지 과정을 측정하지 못합니다. 이러한 격차를 해소하기 위해 우리는 기하학적 구성이 언어 이해와 정밀한 시각적 생성을 본질적으로 요구하므로 이상적인 테스트베드가 될 수 있다고 제안합니다. 우리는 기하학적 생성 추론 능력을 평가하기 위해 특별히 설계된 벤치마크인 GGBench를 소개합니다. GGBench는 모델이 단순히 이해하고 추론하는 능력뿐만 아니라 능동적으로 해결책을 구성하는 능력을 체계적으로 진단할 수 있는 포괄적인 프레임워크를 제공함으로써 차세대 지능형 시스템을 위한 더 엄격한 기준을 제시합니다. 프로젝트 웹사이트: https://opendatalab-raiser.github.io/GGBench/.
English
The advent of Unified Multimodal Models (UMMs) signals a paradigm shift in artificial intelligence, moving from passive perception to active, cross-modal generation. Despite their unprecedented ability to synthesize information, a critical gap persists in evaluation: existing benchmarks primarily assess discriminative understanding or unconstrained image generation separately, failing to measure the integrated cognitive process of generative reasoning. To bridge this gap, we propose that geometric construction provides an ideal testbed as it inherently demands a fusion of language comprehension and precise visual generation. We introduce GGBench, a benchmark designed specifically to evaluate geometric generative reasoning. It provides a comprehensive framework for systematically diagnosing a model's ability to not only understand and reason but to actively construct a solution, thereby setting a more rigorous standard for the next generation of intelligent systems. Project website: https://opendatalab-raiser.github.io/GGBench/.