PairUni: Paarsgewijze training voor verenigde multimodale taalmodel
PairUni: Pairwise Training for Unified Multimodal Language Models
October 29, 2025
Auteurs: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI
Samenvatting
Geünificeerde visie-taalmodellen (UVLM's) moeten zowel begrip als generatie uitvoeren binnen een enkele architectuur, maar deze taken steunen op heterogene data en supervisie, wat het moeilijk maakt ze in evenwicht te brengen tijdens reinforcement learning (RL). Wij stellen PairUni voor, een geünificeerd raamwerk dat data reorganiseert in begrip-generatie (UG) paren en de optimalisatie dienovereenkomstig afstemt. We gebruiken eerst GPT-4 om enkelvoudige-taakdata aan te vullen, door bijschriften te genereren voor begripsmonsters en vraag-antwoord (QA) paren voor generatiemonsters, zodat er afgestemde paren vanuit dezelfde instantie worden gevormd. Daarnaast halen we voor elk generatiemonster een semantisch verwant begripsvoorbeeld op om een opgehaald paar te vormen, waardoor verschillende maar gerelateerde datapunten worden verbonden. Deze gepaarde structuren leggen semantische correspondenties tussen taken bloot en ondersteunen consistent beleidsleren. Om deze structuur te benutten, presenteren we Pair-GPRO, een paar-bewuste variant gebaseerd op Group Relative Policy Optimization. Het kent een similariteitsscore toe aan elk paar om het voordeel te moduleren, waardoor het leren van goed afgestemde voorbeelden wordt versterkt en taakinterferentie wordt verminderd. We hebben een hoogwaardige dataset van 16K UG paren samengesteld, genaamd PairUG, voor RL-finetuning en evalueren PairUni op de krachtige Janus-Pro UVLM's. Onze aanpak bereikt gebalanceerde verbeteringen op diverse UVLM's en overtreft sterke UVLM RL-basislijnen. Code: https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and
generation within a single architecture, but these tasks rely on heterogeneous
data and supervision, making it difficult to balance them during reinforcement
learning (RL). We propose PairUni, a unified framework that reorganizes data
into understanding-generation (UG) pairs and aligns optimization accordingly.
We first use GPT-o3 to augment single-task data, generating captions for
understanding samples and question-answer (QA) pairs for generation samples,
forming aligned pairs from the same instance. Additionally, for each generation
sample, we retrieve a semantically related understanding example to form a
retrieved pair, linking different but related data points. These paired
structures expose cross-task semantic correspondences and support consistent
policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware
variant based on Group Relative Policy Optimization. It assigns a similarity
score to each pair to modulate the advantage, strengthening learning from
well-aligned examples and reducing task interference. We curate a high-quality
dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on
the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on
various UVLMs, outperforming strong UVLM RL baselines. Code:
https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}