SPHINX: 視覚的知覚と推論のための合成環境
SPHINX: A Synthetic Environment for Visual Perception and Reasoning
November 25, 2025
著者: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi
cs.AI
要旨
我々は、中核的な認知的プリミティブに焦点を当てた視覚的知覚と推論のための合成環境「Sphinx」を提案する。Sphinxは、モチーフ、タイル、チャート、アイコン、幾何学プリミティブを用いてパズルを手続き的に生成し、それぞれに検証可能な正解を付与することで、精密な評価と大規模データセット構築を可能にする。本ベンチマークは、対称性検出、幾何学的変換、空間推論、チャート解釈、系列予測にわたる25のタスク類型を網羅する。最近の大規模視覚言語モデル(LVLM)を評価した結果、最先端のGPT-5でさえ51.1%の精度しか達成せず、人間の性能を大きく下回ることが明らかになった。最後に、検証可能な報酬を用いた強化学習(RLVR)がこれらのタスクにおけるモデル精度を大幅に向上させ、外部の視覚推論ベンチマークでも改善をもたらすことを実証し、マルチモーダル推論の発展におけるその可能性を強調する。
English
We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.