VisualSphinx: Groß angelegte synthetische visuelle Logikrätsel für RL
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL
May 29, 2025
Autoren: Yichen Feng, Zhangchen Xu, Fengqing Jiang, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI
Zusammenfassung
Vision-Language-Modelle (VLMs) sollen effektives multimodales Denken ermöglichen und logisch kohärente Entscheidungen treffen, was für Aufgaben wie das Verständnis von Diagrammen und die Lösung räumlicher Probleme entscheidend ist. Allerdings mangelt es aktuellen VLM-Ansätzen an groß angelegten und gut strukturierten Trainingsdatensätzen. Um diese Lücke zu schließen, präsentieren wir VisualSphinx, den ersten groß angelegten synthetischen Datensatz für visuelles logisches Denken. Um die Herausforderung der Bildsynthese mit verankerten Antworten zu bewältigen, schlagen wir eine Regel-zu-Bild-Synthese-Pipeline vor, die Puzzle-Regeln aus Ausgangsfragen extrahiert und erweitert sowie den Code für die Synthese von verankerten Bildern zur Zusammenstellung von Puzzle-Beispielen generiert. Experimente zeigen, dass VLMs, die mit GRPO auf VisualSphinx trainiert werden, von der logischen Kohärenz und Lesbarkeit unseres Datensatzes profitieren und verbesserte Leistungen bei logischen Denkaufgaben erzielen. Die durch VisualSphinx entwickelten erweiterten Denkfähigkeiten kommen auch anderen Denkaufgaben wie algebraischem, arithmetischem und geometrischem Denken zugute.
English
Vision language models (VLMs) are expected to perform effective multimodal
reasoning and make logically coherent decisions, which is critical to tasks
such as diagram understanding and spatial problem solving. However, current VLM
reasoning lacks large-scale and well-structured training datasets. To bridge
this gap, we propose VisualSphinx, a first-of-its-kind large-scale synthetic
visual logical reasoning training data. To tackle the challenge of image
synthesis with grounding answers, we propose a rule-to-image synthesis
pipeline, which extracts and expands puzzle rules from seed questions and
generates the code of grounding synthesis image synthesis for puzzle sample
assembly. Experiments demonstrate that VLM trained using GRPO on VisualSphinx
benefit from logical coherence and readability of our dataset and exhibit
improved performance on logical reasoning tasks. The enhanced reasoning
capabilities developed from VisualSphinx also benefit other reasoning tasks
such as algebraic reasoning, arithmetic reasoning and geometry reasoning.