VisualSphinx: Rompecabezas lógicos de visión sintética a gran escala para aprendizaje por refuerzo

Resumen

Se espera que los modelos de lenguaje visual (VLMs, por sus siglas en inglés) realicen un razonamiento multimodal efectivo y tomen decisiones lógicamente coherentes, lo cual es crucial para tareas como la comprensión de diagramas y la resolución de problemas espaciales. Sin embargo, el razonamiento de los VLMs actuales carece de conjuntos de datos de entrenamiento a gran escala y bien estructurados. Para cerrar esta brecha, proponemos VisualSphinx, un conjunto de datos de entrenamiento sintético a gran escala para el razonamiento lógico visual, el primero en su tipo. Para abordar el desafío de la síntesis de imágenes con respuestas fundamentadas, proponemos una canalización de síntesis de reglas a imágenes, que extrae y expande las reglas de rompecabezas a partir de preguntas iniciales y genera el código de síntesis de imágenes fundamentadas para el ensamblaje de muestras de rompecabezas. Los experimentos demuestran que los VLMs entrenados utilizando GRPO en VisualSphinx se benefician de la coherencia lógica y la legibilidad de nuestro conjunto de datos y muestran un mejor rendimiento en tareas de razonamiento lógico. Las capacidades de razonamiento mejoradas desarrolladas a partir de VisualSphinx también benefician otras tareas de razonamiento, como el razonamiento algebraico, el razonamiento aritmético y el razonamiento geométrico.

English

Vision language models (VLMs) are expected to perform effective multimodal reasoning and make logically coherent decisions, which is critical to tasks such as diagram understanding and spatial problem solving. However, current VLM reasoning lacks large-scale and well-structured training datasets. To bridge this gap, we propose VisualSphinx, a first-of-its-kind large-scale synthetic visual logical reasoning training data. To tackle the challenge of image synthesis with grounding answers, we propose a rule-to-image synthesis pipeline, which extracts and expands puzzle rules from seed questions and generates the code of grounding synthesis image synthesis for puzzle sample assembly. Experiments demonstrate that VLM trained using GRPO on VisualSphinx benefit from logical coherence and readability of our dataset and exhibit improved performance on logical reasoning tasks. The enhanced reasoning capabilities developed from VisualSphinx also benefit other reasoning tasks such as algebraic reasoning, arithmetic reasoning and geometry reasoning.