ChatPaper.aiChatPaper

MergeMix: Een Uniform Augmentatieparadigma voor Visueel en Multi-Modaal Begrip

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

October 27, 2025
Auteurs: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI

Samenvatting

Visie-taalkundige afstemming in multimodale grote taalmodellen (MLLM's) berust typisch op supervised fine-tuning (SFT) of reinforcement learning (RL). SFT is stabiel en efficiënt maar vereist grootschalige menselijke annotaties en kan subtiele voorkeuren niet vastleggen, terwijl RL een beloningssignaal introduceert voor training, maar lijdt onder overhead en instabiliteit. Deze beperkingen benadrukken een afweging tussen schaalbaarheid, robuustheid en afstemmingskwaliteit. Om dit aan te pakken, stellen we MergeMix voor, een augmentatieparadigma tijdens de training dat SFT en RL verbindt. Het past eerst een aandacht-bewuste beeldmixing toe via token-samenvoeging met meer clusterrepresentatie en ruimtelijke context, en presenteert vervolgens een voorkeursgedreven trainingsparadigma voor MLLM's door voorkeursparen te bouwen met gemengde beelden en ruwe beelden, en te optimaliseren via SimPO-verlies. Als een mixup-augmentatie verbetert MergeMix de aandachtconsistentie en -efficiëntie, en overtreft andere heuristiek-gebaseerde methoden in classificatie. Uitgebreide experimenten tonen aan dat MergeMix competitieve nauwkeurigheid bereikt met verbeterde efficiëntie, en biedt een schaalbare aanpak voor voorkeursafstemming in classificatie en MLLM's.
English
Vision-language alignment in multi-modal large language models (MLLMs) typically relies on supervised fine-tuning (SFT) or reinforcement learning (RL). SFT is stable and efficient but requires large-scale human annotations and cannot capture subtle preferences, while RL brings in a reward signal for training, but suffers from overhead and instability. These limitations highlight a trade-off between scalability, robustness, and alignment quality. To address this, we propose MergeMix, a training-time augmentation paradigm that bridges SFT and RL. It first applies an attention-aware image mixing via token merge with more cluster representation and spatial context, and then presents a preference-driven training paradigm for MLLMs by building preference pairs with mixed images and raw images, and optimizing via SimPO loss. As a mixup augmentation, MergeMix enhances attention consistency and efficiency, surpassing other heuristic-based methods in classification. Extensive experiments demonstrate that MergeMix achieves competitive accuracy with improved efficiency, providing a scalable approach to preference alignment in classification and MLLMs.
PDF141December 31, 2025