ChatPaper.aiChatPaper

GGBench: Een geometrisch generatief redeneerbenchmark voor verenigde multimodale modellen

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

November 14, 2025
Auteurs: Jingxuan Wei, Caijun Jia, Xi Bai, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Lijun Wu, Cheng Tan
cs.AI

Samenvatting

De opkomst van Unified Multimodal Models (UMM's) markeert een paradigmaverschuiving in de kunstmatige intelligentie, waarbij de focus verschuift van passieve perceptie naar actieve, cross-modale generatie. Ondanks hun ongekende vermogen om informatie te synthetiseren, blijft er een kritieke kloof bestaan in de evaluatie: bestaande benchmarks beoordelen voornamelijk discriminerend begrip of onbeperkte beeldgeneratie afzonderlijk, en meten niet het geïntegreerde cognitieve proces van generatief redeneren. Om deze kloof te overbruggen, stellen wij voor dat geometrische constructie een ideale testomgeving biedt, omdat het van nature een fusie vereist van taalbegrip en precieze visuele generatie. Wij introduceren GGBench, een benchmark die specifiek is ontworpen om geometrisch generatief redeneren te evalueren. Het biedt een uitgebreid kader om systematisch het vermogen van een model te diagnosticeren om niet alleen te begrijpen en te redeneren, maar ook om actief een oplossing te construeren, waardoor een strengere standaard wordt gezet voor de volgende generatie intelligente systemen. Projectwebsite: https://opendatalab-raiser.github.io/GGBench/.
English
The advent of Unified Multimodal Models (UMMs) signals a paradigm shift in artificial intelligence, moving from passive perception to active, cross-modal generation. Despite their unprecedented ability to synthesize information, a critical gap persists in evaluation: existing benchmarks primarily assess discriminative understanding or unconstrained image generation separately, failing to measure the integrated cognitive process of generative reasoning. To bridge this gap, we propose that geometric construction provides an ideal testbed as it inherently demands a fusion of language comprehension and precise visual generation. We introduce GGBench, a benchmark designed specifically to evaluate geometric generative reasoning. It provides a comprehensive framework for systematically diagnosing a model's ability to not only understand and reason but to actively construct a solution, thereby setting a more rigorous standard for the next generation of intelligent systems. Project website: https://opendatalab-raiser.github.io/GGBench/.
PDF312December 1, 2025