VisualSphinx : Puzzles logiques visuels synthétiques à grande échelle pour l'apprentissage par renforcement
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL
May 29, 2025
Auteurs: Yichen Feng, Zhangchen Xu, Fengqing Jiang, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI
Résumé
Les modèles de langage visuel (VLMs) sont censés effectuer un raisonnement multimodal efficace et prendre des décisions logiquement cohérentes, ce qui est crucial pour des tâches telles que la compréhension de diagrammes et la résolution de problèmes spatiaux. Cependant, le raisonnement des VLMs actuels manque de jeux de données d'entraînement à grande échelle et bien structurés. Pour combler cette lacune, nous proposons VisualSphinx, un premier ensemble de données synthétiques à grande échelle pour l'entraînement au raisonnement logique visuel. Pour relever le défi de la synthèse d'images avec des réponses ancrées, nous proposons un pipeline de synthèse d'images basé sur des règles, qui extrait et développe les règles des énigmes à partir de questions de départ et génère le code de synthèse d'images ancrées pour l'assemblage des échantillons d'énigmes. Les expériences démontrent que les VLMs entraînés en utilisant GRPO sur VisualSphinx bénéficient de la cohérence logique et de la lisibilité de notre ensemble de données et montrent une amélioration des performances sur les tâches de raisonnement logique. Les capacités de raisonnement améliorées développées grâce à VisualSphinx profitent également à d'autres tâches de raisonnement telles que le raisonnement algébrique, le raisonnement arithmétique et le raisonnement géométrique.
English
Vision language models (VLMs) are expected to perform effective multimodal
reasoning and make logically coherent decisions, which is critical to tasks
such as diagram understanding and spatial problem solving. However, current VLM
reasoning lacks large-scale and well-structured training datasets. To bridge
this gap, we propose VisualSphinx, a first-of-its-kind large-scale synthetic
visual logical reasoning training data. To tackle the challenge of image
synthesis with grounding answers, we propose a rule-to-image synthesis
pipeline, which extracts and expands puzzle rules from seed questions and
generates the code of grounding synthesis image synthesis for puzzle sample
assembly. Experiments demonstrate that VLM trained using GRPO on VisualSphinx
benefit from logical coherence and readability of our dataset and exhibit
improved performance on logical reasoning tasks. The enhanced reasoning
capabilities developed from VisualSphinx also benefit other reasoning tasks
such as algebraic reasoning, arithmetic reasoning and geometry reasoning.