ChatPaper.aiChatPaper

SPHINX: Eine synthetische Umgebung für visuelle Wahrnehmung und logisches Denken

SPHINX: A Synthetic Environment for Visual Perception and Reasoning

November 25, 2025
papers.authors: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi
cs.AI

papers.abstract

Wir stellen Sphinx vor, eine synthetische Umgebung für visuelle Wahrnehmung und logisches Denken, die grundlegende kognitive Primitive adressiert. Sphinx erzeugt prozedural Rätsel unter Verwendung von Motiven, Kacheln, Diagrammen, Ikonen und geometrischen Primitiven, die jeweils mit überprüfbaren Ground-Truth-Lösungen versehen sind. Dies ermöglicht sowohl eine präzise Evaluation als auch die Erstellung umfangreicher Datensätze. Der Benchmark umfasst 25 Aufgabentypen, die Symmetrieerkennung, geometrische Transformationen, räumliches Denken, Diagramminterpretation und Sequenzvorhersage abdecken. Die Evaluation aktueller großer visuell-sprachlicher Modelle (LVLMs) zeigt, dass selbst das modernste GPT-5 nur eine Genauigkeit von 51,1 % erreicht und damit deutlich unter der menschlichen Leistung liegt. Abschließend demonstrieren wir, dass Verstärkendes Lernen mit überprüfbaren Belohnungen (RLVR) die Modellgenauigkeit bei diesen Aufgaben erheblich steigert und auch Verbesserungen auf externen Benchmarks für visuelles Denken bewirkt, was sein Potenzial für die Weiterentwicklung multimodalen Denkens unterstreicht.
English
We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.
PDF22December 1, 2025