ChatPaper.aiChatPaper

SPHINX: Un Entorno Sintético para la Percepción Visual y el Razonamiento

SPHINX: A Synthetic Environment for Visual Perception and Reasoning

November 25, 2025
Autores: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi
cs.AI

Resumen

Presentamos Sphinx, un entorno sintético para la percepción y el razonamiento visual que aborda primitivas cognitivas fundamentales. Sphinx genera procedimentalmente rompecabezas utilizando motivos, mosaicos, gráficos, iconos y primitivas geométricas, cada uno emparejado con soluciones de verificación automática (ground-truth), lo que permite tanto una evaluación precisa como la construcción de conjuntos de datos a gran escala. El benchmark abarca 25 tipos de tareas que incluyen detección de simetría, transformaciones geométricas, razonamiento espacial, interpretación de gráficos y predicción de secuencias. La evaluación de modelos grandes de visión y lenguaje (LVLM, por sus siglas en inglés) recientes muestra que incluso el más avanzado, GPT-5, alcanza solo un 51.1% de precisión, muy por debajo del rendimiento humano. Finalmente, demostramos que el aprendizaje por refuerzo con recompensas verificables (RLVR) mejora sustancialmente la precisión de los modelos en estas tareas y produce mejoras en benchmarks externos de razonamiento visual, destacando su potencial para avanzar en el razonamiento multimodal.
English
We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.
PDF22December 1, 2025