PairUni : Entraînement par paires pour des modèles de langage multimodaux unifiés
PairUni: Pairwise Training for Unified Multimodal Language Models
October 29, 2025
papers.authors: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI
papers.abstract
Les modèles unifiés vision-langage (UVLM) doivent réaliser à la fois la compréhension et la génération au sein d'une architecture unique, mais ces tâches reposent sur des données et des supervisions hétérogènes, ce qui rend difficile leur équilibrage lors de l'apprentissage par renforcement (RL). Nous proposons PairUni, un cadre unifié qui réorganise les données en paires compréhension-génération (UG) et aligne l'optimisation en conséquence. Nous utilisons d'abord GPT-4 pour augmenter les données de tâche unique, en générant des légendes pour les échantillons de compréhension et des paires question-réponse (QA) pour les échantillons de génération, formant ainsi des paires alignées à partir de la même instance. De plus, pour chaque échantillon de génération, nous récupérons un exemple de compréhension sémantiquement proche pour former une paire récupérée, reliant ainsi des points de données différents mais apparentés. Ces structures appariées exposent des correspondances sémantiques inter-tâches et soutiennent un apprentissage de politique cohérent. Pour tirer parti de cette structure, nous présentons Pair-GPRO, une variante sensible aux paires basée sur l'Optimisation Relative de Politique par Groupe. Elle attribue un score de similarité à chaque paire pour moduler l'avantage, renforçant l'apprentissage à partir d'exemples bien alignés et réduisant les interférences entre tâches. Nous constituons un jeu de données de haute qualité de 16 000 paires UG nommé PairUG pour le réglage fin par RL et évaluons PairUni sur les puissants UVLM Janus-Pro. Notre approche obtient des améliorations équilibrées sur divers UVLM, surpassant les solides bases de référence en RL pour UVLM. Code : https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and
generation within a single architecture, but these tasks rely on heterogeneous
data and supervision, making it difficult to balance them during reinforcement
learning (RL). We propose PairUni, a unified framework that reorganizes data
into understanding-generation (UG) pairs and aligns optimization accordingly.
We first use GPT-o3 to augment single-task data, generating captions for
understanding samples and question-answer (QA) pairs for generation samples,
forming aligned pairs from the same instance. Additionally, for each generation
sample, we retrieve a semantically related understanding example to form a
retrieved pair, linking different but related data points. These paired
structures expose cross-task semantic correspondences and support consistent
policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware
variant based on Group Relative Policy Optimization. It assigns a similarity
score to each pair to modulate the advantage, strengthening learning from
well-aligned examples and reducing task interference. We curate a high-quality
dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on
the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on
various UVLMs, outperforming strong UVLM RL baselines. Code:
https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}