MergeMix: Un Paradigma Unificado de Aumento para la Comprensión Visual y Multimodal
MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
October 27, 2025
Autores: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI
Resumen
La alineación visión-lenguaje en modelos de lenguaje grande multimodales (MLLMs)
se basa típicamente en el ajuste fino supervisado (SFT) o el aprendizaje por refuerzo (RL).
El SFT es estable y eficiente, pero requiere anotaciones humanas a gran escala
y no puede capturar preferencias sutiles, mientras que el RL introduce una señal de recompensa
para el entrenamiento, pero sufre de sobrecarga e inestabilidad. Estas limitaciones
resaltan un equilibrio entre escalabilidad, robustez y calidad de alineación.
Para abordarlo, proponemos MergeMix, un paradigma de aumento durante el entrenamiento
que tiende un puente entre SFT y RL. Primero aplica una mezcla de imágenes consciente de la atención
mediante la fusión de tokens con mayor representación de clusters y contexto espacial, y luego
presenta un paradigma de entrenamiento impulsado por preferencias para MLLMs construyendo pares
de preferencia con imágenes mezcladas e imágenes originales, y optimizando mediante la pérdida SimPO.
Como una técnica de aumento mixup, MergeMix mejora la consistencia y eficiencia de la atención,
superando a otros métodos basados en heurísticas en clasificación. Experimentos exhaustivos
demuestran que MergeMix logra una precisión competitiva con eficiencia mejorada, proporcionando
un enfoque escalable para la alineación de preferencias en clasificación y MLLMs.
English
Vision-language alignment in multi-modal large language models (MLLMs)
typically relies on supervised fine-tuning (SFT) or reinforcement learning
(RL). SFT is stable and efficient but requires large-scale human annotations
and cannot capture subtle preferences, while RL brings in a reward signal for
training, but suffers from overhead and instability. These limitations
highlight a trade-off between scalability, robustness, and alignment quality.
To address this, we propose MergeMix, a training-time augmentation paradigm
that bridges SFT and RL. It first applies an attention-aware image mixing via
token merge with more cluster representation and spatial context, and then
presents a preference-driven training paradigm for MLLMs by building preference
pairs with mixed images and raw images, and optimizing via SimPO loss. As a
mixup augmentation, MergeMix enhances attention consistency and efficiency,
surpassing other heuristic-based methods in classification. Extensive
experiments demonstrate that MergeMix achieves competitive accuracy with
improved efficiency, providing a scalable approach to preference alignment in
classification and MLLMs.