ChatPaper.aiChatPaper

PairUni: 통합 멀티모달 언어 모델을 위한 Pairwise 학습

PairUni: Pairwise Training for Unified Multimodal Language Models

October 29, 2025
저자: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI

초록

통합 시각-언어 모델(UVLM)은 단일 아키텍처 내에서 이해와 생성을 모두 수행해야 하지만, 이러한 작업들은 이질적인 데이터와 지도 정보에 의존하기 때문에 강화 학습(RL) 과정에서 두 작업의 균형을 맞추기가 어렵습니다. 본 연구에서는 데이터를 이해-생성(UG) 쌍으로 재구성하고 이에 맞춰 최적화를 정렬하는 통합 프레임워크인 PairUni를 제안합니다. 먼저 GPT-4를 활용하여 단일 작업 데이터를 증강시키며, 이해 샘플에 대해서는 캡션을 생성하고 생성 샘플에 대해서는 질문-응답(QA) 쌍을 생성하여 동일한 인스턴스에서 정렬된 쌍을 구성합니다. 추가적으로 각 생성 샘플에 대해 의미적으로 유사한 이해 예제를 검색하여 검색된 쌍을 형성함으로써 서로 다르지만 관련된 데이터 포인트들을 연결합니다. 이러한 쌍 구조는 교차 작업 간 의미적 대응 관계를 드러내고 일관된 정책 학습을 지원합니다. 이 구조를 활용하기 위해 그룹 상대 정책 최적화를 기반으로 한 쌍 인식 변형인 Pair-GPRO를 제안합니다. 이는 각 쌍에 유사도 점수를 할당하여 이점(advantage)을 조절함으로써 잘 정렬된 예제로부터의 학습을 강화하고 작업 간 간섭을 줄입니다. 우리는 RL 미세 조정을 위해 PairUG라는 16K개의 고품질 UG 쌍 데이터셋을 구축했으며, 강력한 Janus-Pro UVLM에서 PairUni를 평가했습니다. 우리의 접근 방식은 다양한 UVLM에서 균형 잡힌 성능 향상을 달성하며, 강력한 UVLM RL 기준선들을 능가합니다. 코드: https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and generation within a single architecture, but these tasks rely on heterogeneous data and supervision, making it difficult to balance them during reinforcement learning (RL). We propose PairUni, a unified framework that reorganizes data into understanding-generation (UG) pairs and aligns optimization accordingly. We first use GPT-o3 to augment single-task data, generating captions for understanding samples and question-answer (QA) pairs for generation samples, forming aligned pairs from the same instance. Additionally, for each generation sample, we retrieve a semantically related understanding example to form a retrieved pair, linking different but related data points. These paired structures expose cross-task semantic correspondences and support consistent policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware variant based on Group Relative Policy Optimization. It assigns a similarity score to each pair to modulate the advantage, strengthening learning from well-aligned examples and reducing task interference. We curate a high-quality dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on various UVLMs, outperforming strong UVLM RL baselines. Code: https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}
PDF131December 2, 2025