VisualSphinx: Rompecabezas lógicos de visión sintética a gran escala para aprendizaje por refuerzo
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL
May 29, 2025
Autores: Yichen Feng, Zhangchen Xu, Fengqing Jiang, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI
Resumen
Se espera que los modelos de lenguaje visual (VLMs, por sus siglas en inglés) realicen un razonamiento multimodal efectivo y tomen decisiones lógicamente coherentes, lo cual es crucial para tareas como la comprensión de diagramas y la resolución de problemas espaciales. Sin embargo, el razonamiento de los VLMs actuales carece de conjuntos de datos de entrenamiento a gran escala y bien estructurados. Para cerrar esta brecha, proponemos VisualSphinx, un conjunto de datos de entrenamiento sintético a gran escala para el razonamiento lógico visual, el primero en su tipo. Para abordar el desafío de la síntesis de imágenes con respuestas fundamentadas, proponemos una canalización de síntesis de reglas a imágenes, que extrae y expande las reglas de rompecabezas a partir de preguntas iniciales y genera el código de síntesis de imágenes fundamentadas para el ensamblaje de muestras de rompecabezas. Los experimentos demuestran que los VLMs entrenados utilizando GRPO en VisualSphinx se benefician de la coherencia lógica y la legibilidad de nuestro conjunto de datos y muestran un mejor rendimiento en tareas de razonamiento lógico. Las capacidades de razonamiento mejoradas desarrolladas a partir de VisualSphinx también benefician otras tareas de razonamiento, como el razonamiento algebraico, el razonamiento aritmético y el razonamiento geométrico.
English
Vision language models (VLMs) are expected to perform effective multimodal
reasoning and make logically coherent decisions, which is critical to tasks
such as diagram understanding and spatial problem solving. However, current VLM
reasoning lacks large-scale and well-structured training datasets. To bridge
this gap, we propose VisualSphinx, a first-of-its-kind large-scale synthetic
visual logical reasoning training data. To tackle the challenge of image
synthesis with grounding answers, we propose a rule-to-image synthesis
pipeline, which extracts and expands puzzle rules from seed questions and
generates the code of grounding synthesis image synthesis for puzzle sample
assembly. Experiments demonstrate that VLM trained using GRPO on VisualSphinx
benefit from logical coherence and readability of our dataset and exhibit
improved performance on logical reasoning tasks. The enhanced reasoning
capabilities developed from VisualSphinx also benefit other reasoning tasks
such as algebraic reasoning, arithmetic reasoning and geometry reasoning.