ChatPaper.aiChatPaper

PairUni:統一マルチモーダル言語モデルのためのペアワイズ学習

PairUni: Pairwise Training for Unified Multimodal Language Models

October 29, 2025
著者: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI

要旨

統一視覚言語モデル(UVLM)は単一のアーキテクチャ内で理解と生成の両方を実行する必要があるが、これらのタスクは異種のデータと教師信号に依存するため、強化学習(RL)中のバランス調整が困難である。本研究では、データを理解-生成(UG)ペアに再構成し、最適化を対応づける統一フレームワークPairUniを提案する。まずGPT-4oを活用して単一タスクデータを拡張し、理解サンプルにはキャプションを、生成サンプルには質問応答(QA)ペアを生成することで、同一インスタンスから整列されたペアを構築する。さらに各生成サンプルに対して意味的に関連する理解事例を検索し、異なるデータポイント間を結ぶ検索ベースのペアを形成する。これらのペア構造はタスク間の意味的対応関係を明示し、一貫性のある方策学習を支援する。 この構造を活用するため、Group Relative Policy Optimizationを基盤としたペア対応変種Pair-GPROを開発した。各ペアに類似度スコアを割り当ててadvantageを調整し、良好に整列した事例からの学習を強化するとともにタスク干渉を低減する。RLファインチューニング用に16Kの高品質UGペアデータセットPairUGを構築し、強力なUVLMであるJanus-ProでPairUniを評価した。本手法は各種UVLMでバランスの取れた性能向上を達成し、既存の強力なUVLM RLベースラインを上回る結果を示した。コード:https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and generation within a single architecture, but these tasks rely on heterogeneous data and supervision, making it difficult to balance them during reinforcement learning (RL). We propose PairUni, a unified framework that reorganizes data into understanding-generation (UG) pairs and aligns optimization accordingly. We first use GPT-o3 to augment single-task data, generating captions for understanding samples and question-answer (QA) pairs for generation samples, forming aligned pairs from the same instance. Additionally, for each generation sample, we retrieve a semantically related understanding example to form a retrieved pair, linking different but related data points. These paired structures expose cross-task semantic correspondences and support consistent policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware variant based on Group Relative Policy Optimization. It assigns a similarity score to each pair to modulate the advantage, strengthening learning from well-aligned examples and reducing task interference. We curate a high-quality dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on various UVLMs, outperforming strong UVLM RL baselines. Code: https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}
PDF131December 2, 2025