VisualSphinx: Enigmi Logici Visivi Sintetici su Larga Scala per il Reinforcement Learning
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL
May 29, 2025
Autori: Yichen Feng, Zhangchen Xu, Fengqing Jiang, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI
Abstract
I modelli linguistici visivi (VLMs) sono progettati per eseguire un ragionamento multimodale efficace e prendere decisioni logicamente coerenti, aspetti cruciali per compiti come la comprensione di diagrammi e la risoluzione di problemi spaziali. Tuttavia, il ragionamento dei VLMs attuali è limitato dalla mancanza di dataset di addestramento su larga scala e ben strutturati. Per colmare questa lacuna, proponiamo VisualSphinx, il primo dataset sintetico su larga scala per il ragionamento logico visivo. Per affrontare la sfida della sintesi di immagini con risposte contestualizzate, introduciamo una pipeline di sintesi da regole a immagini, che estrae ed espande le regole dei puzzle dalle domande iniziali e genera il codice per la sintesi di immagini contestualizzate per l'assemblaggio dei campioni di puzzle. Gli esperimenti dimostrano che i VLMs addestrati utilizzando GRPO su VisualSphinx traggono vantaggio dalla coerenza logica e dalla leggibilità del nostro dataset, mostrando prestazioni migliorate nei compiti di ragionamento logico. Le capacità di ragionamento potenziate sviluppate con VisualSphinx beneficiano anche altri compiti di ragionamento, come il ragionamento algebrico, aritmetico e geometrico.
English
Vision language models (VLMs) are expected to perform effective multimodal
reasoning and make logically coherent decisions, which is critical to tasks
such as diagram understanding and spatial problem solving. However, current VLM
reasoning lacks large-scale and well-structured training datasets. To bridge
this gap, we propose VisualSphinx, a first-of-its-kind large-scale synthetic
visual logical reasoning training data. To tackle the challenge of image
synthesis with grounding answers, we propose a rule-to-image synthesis
pipeline, which extracts and expands puzzle rules from seed questions and
generates the code of grounding synthesis image synthesis for puzzle sample
assembly. Experiments demonstrate that VLM trained using GRPO on VisualSphinx
benefit from logical coherence and readability of our dataset and exhibit
improved performance on logical reasoning tasks. The enhanced reasoning
capabilities developed from VisualSphinx also benefit other reasoning tasks
such as algebraic reasoning, arithmetic reasoning and geometry reasoning.