ChatPaper.aiChatPaper

SPHINX: Um Ambiente Sintético para Percepção Visual e Raciocínio

SPHINX: A Synthetic Environment for Visual Perception and Reasoning

November 25, 2025
Autores: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi
cs.AI

Resumo

Apresentamos o Sphinx, um ambiente sintético para percepção e raciocínio visual que visa primitivas cognitivas fundamentais. O Sphinx gera proceduralmente quebra-cabeças utilizando motivos, blocos, gráficos, ícones e primitivas geométricas, cada um emparelhado com soluções de verdade fundamental verificáveis, permitindo tanto avaliação precisa quanto construção de conjuntos de dados em larga escala. O benchmark abrange 25 tipos de tarefas que abrangem detecção de simetria, transformações geométricas, raciocínio espacial, interpretação de gráficos e previsão de sequências. A avaliação de modelos grandes de visão e linguagem (LVLMs) recentes mostra que mesmo o GPT-5 de última geração atinge apenas 51,1% de precisão, bem abaixo do desempenho humano. Por fim, demonstramos que o aprendizado por reforço com recompensas verificáveis (RLVR) melhora substancialmente a precisão do modelo nessas tarefas e produz ganhos em benchmarks externos de raciocínio visual, destacando seu potencial para avançar o raciocínio multimodal.
English
We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.
PDF22March 21, 2026