ビジュアルジグソーの事後学習がMLLMを改善する
Visual Jigsaw Post-Training Improves MLLMs
September 29, 2025
著者: Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu
cs.AI
要旨
強化学習に基づくポストトレーニングは、マルチモーダル大規模言語モデル(MLLM)のアライメント能力と推論能力を強化するための強力なパラダイムとして最近注目を集めています。視覚中心のポストトレーニングは、MLLMの視覚信号に対する本質的な理解を高める上で重要ですが、現在のポストトレーニングパラダイムは主にテキスト中心であり、高密度の視覚入力を利用してテキストベースの推論のための疎な手がかりを抽出するのみです。この方向性にはいくつかのアプローチが存在しますが、それらは依然としてテキストを中間媒体として依存したり、追加の視覚生成デザインを導入したりすることが多いです。本研究では、MLLMの視覚理解を強化するために設計された汎用的な自己教師ありポストトレーニングフレームワークであるVisual Jigsawを紹介します。Visual Jigsawは一般的な順序付けタスクとして定式化されます:視覚入力が分割され、シャッフルされ、モデルは自然言語で正しい順列を生成することで視覚情報を再構築しなければなりません。これは検証可能な報酬からの強化学習(RLVR)と自然に整合し、追加の視覚生成コンポーネントを必要とせず、注釈なしで自動的に監督信号を導出します。Visual Jigsawを画像、ビデオ、3Dデータの3つの視覚モダリティにわたって具体化します。広範な実験により、細粒度の知覚、時間的推論、3D空間理解における大幅な改善が実証されています。本研究の結果は、ポストトレーニングMLLMにおける自己教師あり視覚中心タスクの可能性を強調し、視覚中心のプレテキストデザインに関するさらなる研究を促すことを目的としています。プロジェクトページ: https://penghao-wu.github.io/visual_jigsaw/
English
Reinforcement learning based post-training has recently emerged as a powerful
paradigm for enhancing the alignment and reasoning capabilities of multimodal
large language models (MLLMs). While vision-centric post-training is crucial
for enhancing MLLMs' intrinsic understanding of visual signals, current
post-training paradigms are predominantly text-centric, where dense visual
inputs are only leveraged to extract sparse cues for text-based reasoning.
There exist a few approaches in this direction, however, they often still rely
on text as an intermediate mediator or introduce additional visual generative
designs. In this work, we introduce Visual Jigsaw, a generic self-supervised
post-training framework designed to strengthen visual understanding in MLLMs.
Visual Jigsaw is formulated as a general ordering task: visual inputs are
partitioned, shuffled, and the model must reconstruct the visual information by
producing the correct permutation in natural language. This naturally aligns
with reinforcement learning from verifiable rewards (RLVR), requires no
additional visual generative components, and derives its supervisory signal
automatically without any annotations. We instantiate Visual Jigsaw across
three visual modalities, including images, videos, and 3D data. Extensive
experiments demonstrate substantial improvements in fine-grained perception,
temporal reasoning, and 3D spatial understanding. Our findings highlight the
potential of self-supervised vision-centric tasks in post-training MLLMs and
aim to inspire further research on vision-centric pretext designs. Project
Page: https://penghao-wu.github.io/visual_jigsaw/