PairUni: Addestramento a Coppie per Modelli Linguistici Multimodali Unificati
PairUni: Pairwise Training for Unified Multimodal Language Models
October 29, 2025
Autori: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI
Abstract
I modelli unificati visione-linguaggio (UVLM) devono eseguire sia la comprensione che la generazione all'interno di un'unica architettura, ma questi compiti si basano su dati e supervisione eterogenei, rendendo difficile bilanciarli durante l'apprendimento per rinforzo (RL). Proponiamo PairUni, un framework unificato che riorganizza i dati in coppie comprensione-generazione (UG) e allinea di conseguenza l'ottimizzazione. Utilizziamo prima GPT-4 per aumentare i dati a compito singolo, generando didascalie per i campioni di comprensione e coppie domanda-risposta (QA) per i campioni di generazione, formando coppie allineate dalla stessa istanza. Inoltre, per ogni campione di generazione, recuperiamo un esempio di comprensione semanticamente correlato per formare una coppia recuperata, collegando punti dati diversi ma correlati. Queste strutture accoppiate espongono corrispondenze semantiche cross-task e supportano un apprendimento della policy coerente. Per sfruttare questa struttura, presentiamo Pair-GPRO, una variante pair-aware basata sull'ottimizzazione della policy relativa di gruppo. Assegna un punteggio di similarità a ogni coppia per modulare il vantaggio, rafforzando l'apprendimento da esempi ben allineati e riducendo l'interferenza tra compiti. Curiamo un dataset di alta qualità di 16K coppie UG denominato PairUG per il fine-tuning RL e valutiamo PairUni sui potenti UVLM Janus-Pro. Il nostro approccio raggiunge miglioramenti bilanciati su vari UVLM, superando solidi baseline RL per UVLM. Codice: https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and
generation within a single architecture, but these tasks rely on heterogeneous
data and supervision, making it difficult to balance them during reinforcement
learning (RL). We propose PairUni, a unified framework that reorganizes data
into understanding-generation (UG) pairs and aligns optimization accordingly.
We first use GPT-o3 to augment single-task data, generating captions for
understanding samples and question-answer (QA) pairs for generation samples,
forming aligned pairs from the same instance. Additionally, for each generation
sample, we retrieve a semantically related understanding example to form a
retrieved pair, linking different but related data points. These paired
structures expose cross-task semantic correspondences and support consistent
policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware
variant based on Group Relative Policy Optimization. It assigns a similarity
score to each pair to modulate the advantage, strengthening learning from
well-aligned examples and reducing task interference. We curate a high-quality
dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on
the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on
various UVLMs, outperforming strong UVLM RL baselines. Code:
https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}