SPHINX : Un environnement synthétique pour la perception visuelle et le raisonnement
SPHINX: A Synthetic Environment for Visual Perception and Reasoning
November 25, 2025
papers.authors: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi
cs.AI
papers.abstract
Nous présentons Sphinx, un environnement synthétique dédié à la perception visuelle et au raisonnement, qui cible des primitives cognitives fondamentales. Sphinx génère procéduralement des énigmes en utilisant des motifs, des tuiles, des graphiques, des icônes et des primitives géométriques, chacune étant associée à des solutions vérifiables de référence, permettant à la fois une évaluation précise et la construction de jeux de données à grande échelle. Le benchmark couvre 25 types de tâches incluant la détection de symétrie, les transformations géométriques, le raisonnement spatial, l'interprétation de graphiques et la prédiction de séquences. L'évaluation de récents modèles de vision et langage à grande échelle (LVLM) montre que même le GPT-5, pourtant état de l'art, n'atteint que 51,1 % de précision, soit bien en deçà des performances humaines. Enfin, nous démontrons que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore substantiellement la précision des modèles sur ces tâches et génère des gains sur des benchmarks externes de raisonnement visuel, soulignant son potentiel pour faire progresser le raisonnement multimodal.
English
We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.