MergeMix: Een Uniform Augmentatieparadigma voor Visueel en Multi-Modaal Begrip
MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
October 27, 2025
Auteurs: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI
Samenvatting
Visie-taalkundige afstemming in multimodale grote taalmodellen (MLLM's)
berust typisch op supervised fine-tuning (SFT) of reinforcement learning (RL).
SFT is stabiel en efficiënt maar vereist grootschalige menselijke annotaties
en kan subtiele voorkeuren niet vastleggen, terwijl RL een beloningssignaal
introduceert voor training, maar lijdt onder overhead en instabiliteit. Deze
beperkingen benadrukken een afweging tussen schaalbaarheid, robuustheid en
afstemmingskwaliteit. Om dit aan te pakken, stellen we MergeMix voor, een
augmentatieparadigma tijdens de training dat SFT en RL verbindt. Het past
eerst een aandacht-bewuste beeldmixing toe via token-samenvoeging met meer
clusterrepresentatie en ruimtelijke context, en presenteert vervolgens een
voorkeursgedreven trainingsparadigma voor MLLM's door voorkeursparen te bouwen
met gemengde beelden en ruwe beelden, en te optimaliseren via SimPO-verlies.
Als een mixup-augmentatie verbetert MergeMix de aandachtconsistentie en
-efficiëntie, en overtreft andere heuristiek-gebaseerde methoden in
classificatie. Uitgebreide experimenten tonen aan dat MergeMix competitieve
nauwkeurigheid bereikt met verbeterde efficiëntie, en biedt een schaalbare
aanpak voor voorkeursafstemming in classificatie en MLLM's.
English
Vision-language alignment in multi-modal large language models (MLLMs)
typically relies on supervised fine-tuning (SFT) or reinforcement learning
(RL). SFT is stable and efficient but requires large-scale human annotations
and cannot capture subtle preferences, while RL brings in a reward signal for
training, but suffers from overhead and instability. These limitations
highlight a trade-off between scalability, robustness, and alignment quality.
To address this, we propose MergeMix, a training-time augmentation paradigm
that bridges SFT and RL. It first applies an attention-aware image mixing via
token merge with more cluster representation and spatial context, and then
presents a preference-driven training paradigm for MLLMs by building preference
pairs with mixed images and raw images, and optimizing via SimPO loss. As a
mixup augmentation, MergeMix enhances attention consistency and efficiency,
surpassing other heuristic-based methods in classification. Extensive
experiments demonstrate that MergeMix achieves competitive accuracy with
improved efficiency, providing a scalable approach to preference alignment in
classification and MLLMs.