ChatPaper.aiChatPaper

VisualSphinx: Quebra-Cabeças Lógicos de Visão Sintética em Grande Escala para Aprendizado por Reforço

VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL

May 29, 2025
Autores: Yichen Feng, Zhangchen Xu, Fengqing Jiang, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI

Resumo

Espera-se que os modelos de linguagem visual (VLMs) realizem raciocínio multimodal eficaz e tomem decisões logicamente coerentes, o que é crucial para tarefas como compreensão de diagramas e resolução de problemas espaciais. No entanto, o raciocínio dos VLMs atuais carece de conjuntos de dados de treinamento em grande escala e bem estruturados. Para preencher essa lacuna, propomos o VisualSphinx, um conjunto de dados sintético de treinamento em grande escala para raciocínio lógico visual, pioneiro em seu tipo. Para enfrentar o desafio da síntese de imagens com respostas fundamentadas, propomos um pipeline de síntese de regras para imagens, que extrai e expande as regras dos quebra-cabeças a partir de perguntas iniciais e gera o código de síntese de imagens fundamentadas para a montagem de amostras de quebra-cabeças. Experimentos demonstram que os VLMs treinados usando GRPO no VisualSphinx se beneficiam da coerência lógica e da legibilidade do nosso conjunto de dados e exibem desempenho aprimorado em tarefas de raciocínio lógico. As capacidades de raciocínio aprimoradas desenvolvidas a partir do VisualSphinx também beneficiam outras tarefas de raciocínio, como raciocínio algébrico, aritmético e geométrico.
English
Vision language models (VLMs) are expected to perform effective multimodal reasoning and make logically coherent decisions, which is critical to tasks such as diagram understanding and spatial problem solving. However, current VLM reasoning lacks large-scale and well-structured training datasets. To bridge this gap, we propose VisualSphinx, a first-of-its-kind large-scale synthetic visual logical reasoning training data. To tackle the challenge of image synthesis with grounding answers, we propose a rule-to-image synthesis pipeline, which extracts and expands puzzle rules from seed questions and generates the code of grounding synthesis image synthesis for puzzle sample assembly. Experiments demonstrate that VLM trained using GRPO on VisualSphinx benefit from logical coherence and readability of our dataset and exhibit improved performance on logical reasoning tasks. The enhanced reasoning capabilities developed from VisualSphinx also benefit other reasoning tasks such as algebraic reasoning, arithmetic reasoning and geometry reasoning.
PDF92June 3, 2025