ChatPaper.aiChatPaper

MergeMix: Ein einheitliches Augmentierungsparadigma für visuelles und multimodales Verständnis

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

October 27, 2025
papers.authors: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI

papers.abstract

Die Ausrichtung von Vision und Sprache in multimodalen großen Sprachmodellen (MLLMs) stützt sich typischerweise auf überwachtes Feinabstimmen (SFT) oder bestärkendes Lernen (RL). SFT ist stabil und effizient, erfordert jedoch großangelegte menschliche Annotationen und kann subtile Präferenzen nicht erfassen, während RL ein Belohnungssignal für das Training einführt, aber unter Overhead und Instabilität leidet. Diese Einschränkungen verdeutlichen einen Zielkonflikt zwischen Skalierbarkeit, Robustheit und Ausrichtungsqualität. Um dies zu adressieren, schlagen wir MergeMix vor, ein Augmentationsparadigma zur Trainingszeit, das SFT und RL verbindet. Es wendet zunächst ein aufmerksamkeitsbasiertes Bildmixing mittels Token-Zusammenführung mit stärkerer Cluster-Repräsentation und räumlichem Kontext an und präsentiert dann ein präferenzgetriebenes Trainingsparadigma für MLLMs, indem Präferenzpaare mit gemischten und originalen Bildern erstellt und mittels SimPO-Verlust optimiert werden. Als Mixup-Augmentierung verbessert MergeMix die Aufmerksamkeitskonsistenz und -effizienz und übertrifft andere heuristikbasierte Methoden in der Klassifikation. Umfangreiche Experimente belegen, dass MergeMix eine wettbewerbsfähige Genauigkeit bei verbesserter Effizienz erreicht und einen skalierbaren Ansatz für die Präferenzausrichtung in Klassifikation und MLLMs bietet.
English
Vision-language alignment in multi-modal large language models (MLLMs) typically relies on supervised fine-tuning (SFT) or reinforcement learning (RL). SFT is stable and efficient but requires large-scale human annotations and cannot capture subtle preferences, while RL brings in a reward signal for training, but suffers from overhead and instability. These limitations highlight a trade-off between scalability, robustness, and alignment quality. To address this, we propose MergeMix, a training-time augmentation paradigm that bridges SFT and RL. It first applies an attention-aware image mixing via token merge with more cluster representation and spatial context, and then presents a preference-driven training paradigm for MLLMs by building preference pairs with mixed images and raw images, and optimizing via SimPO loss. As a mixup augmentation, MergeMix enhances attention consistency and efficiency, surpassing other heuristic-based methods in classification. Extensive experiments demonstrate that MergeMix achieves competitive accuracy with improved efficiency, providing a scalable approach to preference alignment in classification and MLLMs.
PDF141December 31, 2025