SPHINX: 시각 인식 및 추론을 위한 합성 환경
SPHINX: A Synthetic Environment for Visual Perception and Reasoning
November 25, 2025
저자: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi
cs.AI
초록
우리는 핵심 인지 원시 기능을 대상으로 하는 시각적 인식 및 추론 합성 환경인 Sphinx를 소개한다. Sphinx는 모티프, 타일, 차트, 아이콘, 기하학적 원시 요소를 활용하여 퍼즐을 절차적으로 생성하며, 각각 검증 가능한 실제 정답과 쌍을 이뤄 정밀한 평가와 대규모 데이터셋 구축을 동시에 가능하게 한다. 본 벤치마크는 대칭성 탐지, 기하학적 변환, 공간 추론, 차트 해석, 순서 예측 등 25가지 과제 유형을 포괄한다. 최신 대규모 시각-언어 모델(LVLM) 평가 결과, 최첨단 GPT-5 조차도 정확도가 51.1%에 그쳐 인간의 수행 수준보다 크게 떨어지는 것으로 나타났다. 마지막으로 검증 가능한 보상 기반 강화 학습(RLVR)이 이러한 과제에서 모델 정확도를 크게 향상시키고 외부 시각 추론 벤치마크에서도 성능 향상을 가져옴을 입증하며, 이 방식이 다중모달 추론 발전을 위한 유망한 접근법임을 부각한다.
English
We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.