PairUni: Paarweises Training für vereinheitlichte multimodale Sprachmodelle
PairUni: Pairwise Training for Unified Multimodal Language Models
October 29, 2025
papers.authors: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI
papers.abstract
Einheitliche Vision-Sprache-Modelle (UVLMs) müssen sowohl Verständnis als auch
Generierung innerhalb einer einzigen Architektur bewältigen, doch diese Aufgaben
bauen auf heterogenen Daten und Supervision auf, was ihre Balance während
Reinforcement Learning (RL) erschwert. Wir stellen PairUni vor, einen
einheitlichen Rahmen, der Daten in Verständnis-Generierung (UG)-Paare umstrukturiert
und die Optimierung entsprechend anpasst. Wir nutzen zunächst GPT-4o, um
Einzelaufgaben-Daten anzureichern, indem wir Beschreibungen für Verständnis-Stichproben
und Frage-Antwort (QA)-Paare für Generierungs-Stichproben erzeugen und so
abgestimmte Paare aus derselben Instanz bilden. Zusätzlich retrieven wir für jede
Generierungs-Stichprobe ein semantisch verwandtes Verständnis-Beispiel, um ein
retrieviertes Paar zu formen, das verschiedene aber relatede Datenpunkte verbindet.
Diese gepaarten Strukturen legen übergreifende semantische Korrespondenzen offen
und unterstützen konsistentes Policy-Lernen. Um diese Struktur zu nutzen, präsentieren
wir Pair-GPRO, eine paarbewusste Variante basierend auf Group Relative Policy Optimization.
Sie weist jedem Paar einen Ähnlichkeits-Score zu, um den Advantage zu modulieren,
das Lernen aus gut abgestimmten Beispielen zu verstärken und Aufgabeninterferenz
zu reduzieren. Wir kuratieren einen hochwertigen Datensatz mit 16K UG-Paaren namens
PairUG für RL-Finetuning und evaluieren PairUni auf den leistungsstarken Janus-Pro-UVLMs.
Unser Ansatz erzielt ausgewogene Verbesserungen bei verschiedenen UVLMs und übertrifft
starke UVLM-RL-Baselines. Code: https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and
generation within a single architecture, but these tasks rely on heterogeneous
data and supervision, making it difficult to balance them during reinforcement
learning (RL). We propose PairUni, a unified framework that reorganizes data
into understanding-generation (UG) pairs and aligns optimization accordingly.
We first use GPT-o3 to augment single-task data, generating captions for
understanding samples and question-answer (QA) pairs for generation samples,
forming aligned pairs from the same instance. Additionally, for each generation
sample, we retrieve a semantically related understanding example to form a
retrieved pair, linking different but related data points. These paired
structures expose cross-task semantic correspondences and support consistent
policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware
variant based on Group Relative Policy Optimization. It assigns a similarity
score to each pair to modulate the advantage, strengthening learning from
well-aligned examples and reducing task interference. We curate a high-quality
dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on
the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on
various UVLMs, outperforming strong UVLM RL baselines. Code:
https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}