MergeMix: 시각 및 다중 모달 이해를 위한 통합 증강 패러다임
MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
October 27, 2025
저자: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI
초록
다중 모달 대규모 언어 모델(MLLM)의 시각-언어 정렬은 일반적으로 지도 미세 조정(SFT) 또는 강화 학습(RL)에 의존합니다. SFT는 안정적이고 효율적이지만 대규모 인간 주석이 필요하며 미세한 선호도를 포착할 수 없는 반면, RL은 훈련을 위한 보상 신호를 도입하지만 오버헤드와 불안정성 문제가 있습니다. 이러한 한계는 확장성, 강건성, 정렬 품질 간의 트레이드오프를 부각시킵니다. 이를 해결하기 위해 우리는 SFT와 RL을 연결하는 훈련 시간 증강 패러다임인 MergeMix를 제안합니다. MergeMix는 먼저 더 많은 클러스터 표현과 공간 컨텍스트를 포함한 토큰 병합을 통한 주의 기반 이미지 혼합을 적용한 후, 혼합 이미지와 원본 이미지로 선호도 쌍을 구성하고 SimPO 손실을 통해 최적화하는 선호도 주도 훈련 패러다임을 제시합니다. 믹스업 증강 기법으로서 MergeMix는 주의 일관성과 효율성을 향상시키며 분류 작업에서 다른 휴리스틱 기반 방법들을 능가합니다. 폭넓은 실험을 통해 MergeMix가 향상된 효율성으로 경쟁력 있는 정확도를 달성하며, 분류 및 MLLM에서 선호도 정렬을 위한 확장 가능한 접근 방식을 제공함을 입증합니다.
English
Vision-language alignment in multi-modal large language models (MLLMs)
typically relies on supervised fine-tuning (SFT) or reinforcement learning
(RL). SFT is stable and efficient but requires large-scale human annotations
and cannot capture subtle preferences, while RL brings in a reward signal for
training, but suffers from overhead and instability. These limitations
highlight a trade-off between scalability, robustness, and alignment quality.
To address this, we propose MergeMix, a training-time augmentation paradigm
that bridges SFT and RL. It first applies an attention-aware image mixing via
token merge with more cluster representation and spatial context, and then
presents a preference-driven training paradigm for MLLMs by building preference
pairs with mixed images and raw images, and optimizing via SimPO loss. As a
mixup augmentation, MergeMix enhances attention consistency and efficiency,
surpassing other heuristic-based methods in classification. Extensive
experiments demonstrate that MergeMix achieves competitive accuracy with
improved efficiency, providing a scalable approach to preference alignment in
classification and MLLMs.