MergeMix: Um Paradigma Unificado de Aumento para a Compreensão Visual e Multimodal
MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
October 27, 2025
Autores: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI
Resumo
O alinhamento visão-linguagem em modelos de linguagem grandes multimodais (MLLMs) normalmente recorre ao ajuste fino supervisionado (SFT) ou à aprendizagem por reforço (RL). O SFT é estável e eficiente, mas requer anotações humanas em larga escala e não consegue capturar preferências subtis, enquanto o RL introduz um sinal de recompensa para o treino, mas sofre com sobrecarga e instabilidade. Estas limitações evidenciam um compromisso entre escalabilidade, robustez e qualidade de alinhamento. Para resolver isto, propomos o MergeMix, um paradigma de aumento de dados durante o treino que une o SFT e o RL. Primeiro, aplica uma mistura de imagens consciente da atenção através da fusão de *tokens* com mais representação de clusters e contexto espacial, e depois apresenta um paradigma de treino orientado por preferências para MLLMs, construindo pares de preferência com imagens misturadas e imagens originais, e otimizando através da perda SimPO. Enquanto aumento de dados do tipo *mixup*, o MergeMix melhora a consistência e eficiência da atenção, superando outros métodos baseados em heurística na classificação. Experiências extensivas demonstram que o MergeMix alcança uma precisão competitiva com eficiência melhorada, fornecendo uma abordagem escalável para o alinhamento de preferências na classificação e em MLLMs.
English
Vision-language alignment in multi-modal large language models (MLLMs)
typically relies on supervised fine-tuning (SFT) or reinforcement learning
(RL). SFT is stable and efficient but requires large-scale human annotations
and cannot capture subtle preferences, while RL brings in a reward signal for
training, but suffers from overhead and instability. These limitations
highlight a trade-off between scalability, robustness, and alignment quality.
To address this, we propose MergeMix, a training-time augmentation paradigm
that bridges SFT and RL. It first applies an attention-aware image mixing via
token merge with more cluster representation and spatial context, and then
presents a preference-driven training paradigm for MLLMs by building preference
pairs with mixed images and raw images, and optimizing via SimPO loss. As a
mixup augmentation, MergeMix enhances attention consistency and efficiency,
surpassing other heuristic-based methods in classification. Extensive
experiments demonstrate that MergeMix achieves competitive accuracy with
improved efficiency, providing a scalable approach to preference alignment in
classification and MLLMs.