ChatPaper.aiChatPaper

SPHINX: Een Synthetische Omgeving voor Visuele Waarneming en Redenering

SPHINX: A Synthetic Environment for Visual Perception and Reasoning

November 25, 2025
Auteurs: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi
cs.AI

Samenvatting

Wij presenteren Sphinx, een synthetische omgeving voor visuele perceptie en redenering die zich richt op kerncognitieve primitieven. Sphinx genereert procedureel puzzels met behulp van motieven, tegels, grafieken, iconen en geometrische primitieven, elk voorzien van verifieerbare grond-waarheidoplossingen, wat zowel precieze evaluatie als grootschalige datasetconstructie mogelijk maakt. De benchmark omvat 25 taaktypen, variërend van symmetriedetectie en geometrische transformaties tot ruimtelijk redeneren, grafiekinterpretatie en sequentievoorspelling. Evaluatie van recente grote visie-taalmodellen (LVLM's) toont aan dat zelfs de meest geavanceerde GPT-5 slechts 51,1% nauwkeurigheid bereikt, aanzienlijk lager dan menselijke prestaties. Ten slotte tonen we aan dat reinforcement learning met verifieerbare beloningen (RLVR) de modelnauwkeurigheid op deze taken aanzienlijk verbetert en winst oplevert op externe benchmarks voor visueel redeneren, wat de belofte ervan voor de vooruitgang van multimodaal redeneren benadrukt.
English
We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.
PDF22December 1, 2025