VisualSphinx: Quebra-Cabeças Lógicos de Visão Sintética em Grande Escala para Aprendizado por Reforço
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL
May 29, 2025
Autores: Yichen Feng, Zhangchen Xu, Fengqing Jiang, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI
Resumo
Espera-se que os modelos de linguagem visual (VLMs) realizem raciocínio multimodal eficaz e tomem decisões logicamente coerentes, o que é crucial para tarefas como compreensão de diagramas e resolução de problemas espaciais. No entanto, o raciocínio dos VLMs atuais carece de conjuntos de dados de treinamento em grande escala e bem estruturados. Para preencher essa lacuna, propomos o VisualSphinx, um conjunto de dados sintético de treinamento em grande escala para raciocínio lógico visual, pioneiro em seu tipo. Para enfrentar o desafio da síntese de imagens com respostas fundamentadas, propomos um pipeline de síntese de regras para imagens, que extrai e expande as regras dos quebra-cabeças a partir de perguntas iniciais e gera o código de síntese de imagens fundamentadas para a montagem de amostras de quebra-cabeças. Experimentos demonstram que os VLMs treinados usando GRPO no VisualSphinx se beneficiam da coerência lógica e da legibilidade do nosso conjunto de dados e exibem desempenho aprimorado em tarefas de raciocínio lógico. As capacidades de raciocínio aprimoradas desenvolvidas a partir do VisualSphinx também beneficiam outras tarefas de raciocínio, como raciocínio algébrico, aritmético e geométrico.
English
Vision language models (VLMs) are expected to perform effective multimodal
reasoning and make logically coherent decisions, which is critical to tasks
such as diagram understanding and spatial problem solving. However, current VLM
reasoning lacks large-scale and well-structured training datasets. To bridge
this gap, we propose VisualSphinx, a first-of-its-kind large-scale synthetic
visual logical reasoning training data. To tackle the challenge of image
synthesis with grounding answers, we propose a rule-to-image synthesis
pipeline, which extracts and expands puzzle rules from seed questions and
generates the code of grounding synthesis image synthesis for puzzle sample
assembly. Experiments demonstrate that VLM trained using GRPO on VisualSphinx
benefit from logical coherence and readability of our dataset and exhibit
improved performance on logical reasoning tasks. The enhanced reasoning
capabilities developed from VisualSphinx also benefit other reasoning tasks
such as algebraic reasoning, arithmetic reasoning and geometry reasoning.