MergeMix: Ein einheitliches Augmentierungsparadigma für visuelles und multimodales Verständnis
MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
October 27, 2025
papers.authors: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI
papers.abstract
Die Ausrichtung von Vision und Sprache in multimodalen großen Sprachmodellen (MLLMs) stützt sich typischerweise auf überwachtes Feinabstimmen (SFT) oder bestärkendes Lernen (RL). SFT ist stabil und effizient, erfordert jedoch großangelegte menschliche Annotationen und kann subtile Präferenzen nicht erfassen, während RL ein Belohnungssignal für das Training einführt, aber unter Overhead und Instabilität leidet. Diese Einschränkungen verdeutlichen einen Zielkonflikt zwischen Skalierbarkeit, Robustheit und Ausrichtungsqualität. Um dies zu adressieren, schlagen wir MergeMix vor, ein Augmentationsparadigma zur Trainingszeit, das SFT und RL verbindet. Es wendet zunächst ein aufmerksamkeitsbasiertes Bildmixing mittels Token-Zusammenführung mit stärkerer Cluster-Repräsentation und räumlichem Kontext an und präsentiert dann ein präferenzgetriebenes Trainingsparadigma für MLLMs, indem Präferenzpaare mit gemischten und originalen Bildern erstellt und mittels SimPO-Verlust optimiert werden. Als Mixup-Augmentierung verbessert MergeMix die Aufmerksamkeitskonsistenz und -effizienz und übertrifft andere heuristikbasierte Methoden in der Klassifikation. Umfangreiche Experimente belegen, dass MergeMix eine wettbewerbsfähige Genauigkeit bei verbesserter Effizienz erreicht und einen skalierbaren Ansatz für die Präferenzausrichtung in Klassifikation und MLLMs bietet.
English
Vision-language alignment in multi-modal large language models (MLLMs)
typically relies on supervised fine-tuning (SFT) or reinforcement learning
(RL). SFT is stable and efficient but requires large-scale human annotations
and cannot capture subtle preferences, while RL brings in a reward signal for
training, but suffers from overhead and instability. These limitations
highlight a trade-off between scalability, robustness, and alignment quality.
To address this, we propose MergeMix, a training-time augmentation paradigm
that bridges SFT and RL. It first applies an attention-aware image mixing via
token merge with more cluster representation and spatial context, and then
presents a preference-driven training paradigm for MLLMs by building preference
pairs with mixed images and raw images, and optimizing via SimPO loss. As a
mixup augmentation, MergeMix enhances attention consistency and efficiency,
surpassing other heuristic-based methods in classification. Extensive
experiments demonstrate that MergeMix achieves competitive accuracy with
improved efficiency, providing a scalable approach to preference alignment in
classification and MLLMs.