Jigsaw-R1: Исследование визуального обучения с подкреплением на основе правил с использованием головоломок-пазлов
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
May 29, 2025
Авторы: Zifu Wang, Junyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko
cs.AI
Аннотация
Применение основанного на правилах обучения с подкреплением (RL) к мультимодальным большим языковым моделям (MLLMs) ставит уникальные задачи и может приводить к отклонениям от результатов, полученных в текстовых доменах, особенно для задач, требующих интенсивного восприятия. В данной статье представлено всестороннее исследование визуального RL, основанного на правилах, с использованием пазлов в качестве структурированной экспериментальной платформы. Пазлы предоставляют встроенную истинную метку, регулируемую сложность и требуют сложного принятия решений, что делает их идеальными для данного исследования. Наши результаты выявили несколько ключевых выводов:
Во-первых, MLLMs, изначально показывающие результаты, близкие к случайным на самых простых пазлах, достигают почти идеальной точности и обобщаются на сложные, ранее не встречавшиеся конфигурации после тонкой настройки.
Во-вторых, обучение на пазлах может способствовать обобщению на другие визуальные задачи, причем эффективность зависит от конкретных конфигураций задач.
В-третьих, MLLMs способны обучаться и обобщаться как с явным, так и без явного рассуждения, хотя модели с открытым исходным кодом чаще предпочитают прямой ответ. В результате, даже при обучении для пошагового рассуждения, они могут игнорировать процесс мышления при выводе окончательного ответа.
В-четвертых, мы наблюдаем, что сложные паттерны рассуждения, по-видимому, являются предсуществующими, а не возникающими, причем их частота увеличивается с обучением и сложностью задачи.
Наконец, наши результаты демонстрируют, что RL обеспечивает более эффективное обобщение, чем контролируемая тонкая настройка (SFT), а начальная фаза "холодного старта" SFT может препятствовать последующей оптимизации RL. Хотя эти наблюдения основаны на пазлах и могут варьироваться для других визуальных задач, данное исследование вносит ценный вклад в общее понимание визуального RL, основанного на правилах, и его потенциала в мультимодальном обучении.
Код доступен по адресу: https://github.com/zifuwanggg/Jigsaw-R1.
English
The application of rule-based reinforcement learning (RL) to multimodal large
language models (MLLMs) introduces unique challenges and potential deviations
from findings in text-only domains, particularly for perception-heavy tasks.
This paper provides a comprehensive study of rule-based visual RL, using jigsaw
puzzles as a structured experimental framework. Jigsaw puzzles offer inherent
ground truth, adjustable difficulty, and demand complex decision-making, making
them ideal for this study. Our research reveals several key findings:
Firstly, we find that MLLMs, initially performing near to random
guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and
generalize to complex, unseen configurations through fine-tuning.
Secondly, training on jigsaw puzzles can induce generalization to
other visual tasks, with effectiveness tied to specific task configurations.
Thirdly, MLLMs can learn and generalize with or without explicit
reasoning, though open-source models often favor direct answering.
Consequently, even when trained for step-by-step reasoning, they can ignore the
thinking process in deriving the final answer. Fourthly, we observe
that complex reasoning patterns appear to be pre-existing rather than emergent,
with their frequency increasing alongside training and task difficulty.
Finally, our results demonstrate that RL exhibits more effective
generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start
phase can hinder subsequent RL optimization. Although these observations are
based on jigsaw puzzles and may vary across other visual tasks, this research
contributes a valuable piece of jigsaw to the larger puzzle of collective
understanding rule-based visual RL and its potential in multimodal learning.
The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.