MergeMix: Un Paradigma Unificato di Augmentation per la Comprensione Visiva e Multimodale
MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
October 27, 2025
Autori: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI
Abstract
L'allineamento visione-linguaggio nei modelli linguistici multimodali di grandi dimensioni (MLLM) si basa tipicamente sulla messa a punto supervisionata (SFT) o sull'apprendimento per rinforzo (RL). La SFT è stabile ed efficiente ma richiede annotazioni umane su larga scala e non può cogliere preferenze sottili, mentre il RL introduce un segnale di ricompensa per l'addestramento, ma soffre di sovraccarico computazionale e instabilità. Queste limitazioni evidenziano un compromesso tra scalabilità, robustezza e qualità dell'allineamento. Per affrontare ciò, proponiamo MergeMix, un paradigma di aumento dei dati durante l'addestramento che colma il divario tra SFT e RL. Esso applica prima un mixing di immagini basato sull'attenzione tramite la fusione di token con una maggiore rappresentazione cluster e contesto spaziale, e poi presenta un paradigma di addestramento guidato dalle preferenze per gli MLLM costruendo coppie di preferenza con immagini miste e immagini originali, e ottimizzando tramite la loss SimPO. Come tecnica di mixup, MergeMix migliora la consistenza e l'efficienza dell'attenzione, superando altri metodi euristici nella classificazione. Esperimenti estensivi dimostrano che MergeMix raggiunge un'accuratezza competitiva con un'efficienza migliorata, fornendo un approccio scalabile per l'allineamento delle preferenze nella classificazione e negli MLLM.
English
Vision-language alignment in multi-modal large language models (MLLMs)
typically relies on supervised fine-tuning (SFT) or reinforcement learning
(RL). SFT is stable and efficient but requires large-scale human annotations
and cannot capture subtle preferences, while RL brings in a reward signal for
training, but suffers from overhead and instability. These limitations
highlight a trade-off between scalability, robustness, and alignment quality.
To address this, we propose MergeMix, a training-time augmentation paradigm
that bridges SFT and RL. It first applies an attention-aware image mixing via
token merge with more cluster representation and spatial context, and then
presents a preference-driven training paradigm for MLLMs by building preference
pairs with mixed images and raw images, and optimizing via SimPO loss. As a
mixup augmentation, MergeMix enhances attention consistency and efficiency,
surpassing other heuristic-based methods in classification. Extensive
experiments demonstrate that MergeMix achieves competitive accuracy with
improved efficiency, providing a scalable approach to preference alignment in
classification and MLLMs.