ChatPaper.aiChatPaper

GGBench: 統一マルチモーダルモデルのための幾何学的生成推論ベンチマーク

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

November 14, 2025
著者: Jingxuan Wei, Caijun Jia, Xi Bai, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Lijun Wu, Cheng Tan
cs.AI

要旨

統合マルチモーダルモデル(UMM)の登場は、人工知能におけるパラダイムシフトを示すものであり、受動的な知覚から能動的でクロスモーダルな生成へと移行するものです。これらは前例のない情報統合能力を持つにもかかわらず、評価において重大なギャップが残っています。既存のベンチマークは主に、識別的理解または制約のない画像生成を個別に評価しており、生成的推論の統合された認知プロセスを測定できていません。このギャップを埋めるため、幾何学的構築が言語理解と精密な視覚的生成の融合を本質的に要求するため、理想的なテストベッドを提供すると提案します。我々は、幾何学的生成的推論を評価するために特別に設計されたベンチマークであるGGBenchを紹介します。これは、モデルが理解し推論するだけでなく、能動的に解決策を構築する能力を体系的に診断する包括的な枠組みを提供し、次世代の知的システムにより厳格な基準を設定します。プロジェクトウェブサイト:https://opendatalab-raiser.github.io/GGBench/
English
The advent of Unified Multimodal Models (UMMs) signals a paradigm shift in artificial intelligence, moving from passive perception to active, cross-modal generation. Despite their unprecedented ability to synthesize information, a critical gap persists in evaluation: existing benchmarks primarily assess discriminative understanding or unconstrained image generation separately, failing to measure the integrated cognitive process of generative reasoning. To bridge this gap, we propose that geometric construction provides an ideal testbed as it inherently demands a fusion of language comprehension and precise visual generation. We introduce GGBench, a benchmark designed specifically to evaluate geometric generative reasoning. It provides a comprehensive framework for systematically diagnosing a model's ability to not only understand and reason but to actively construct a solution, thereby setting a more rigorous standard for the next generation of intelligent systems. Project website: https://opendatalab-raiser.github.io/GGBench/.
PDF312December 1, 2025