ChatPaper.aiChatPaper

MergeMix: Унифицированная парадигма аугментации для визуального и мультимодального анализа

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

October 27, 2025
Авторы: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI

Аннотация

Выравнивание языка и визуальных данных в мультимодальных больших языковых моделях (МБЯМ) обычно достигается за счет контролируемой тонкой настройки (SFT) или обучения с подкреплением (RL). SFT является стабильным и эффективным методом, но требует масштабной человеческой разметки и не способно улавливать тонкие предпочтения, в то время как RL вводит сигнал вознаграждения для обучения, но страдает от высоких вычислительных затрат и нестабильности. Эти ограничения подчеркивают компромисс между масштабируемостью, устойчивостью и качеством выравнивания. Для решения этой проблемы мы предлагаем MergeMix, парадигму аугментации на этапе обучения, которая объединяет достоинства SFT и RL. Сначала применяется смешивание изображений с учетом внимания посредством слияния токенов, обеспечивающего более кластерное представление и пространственный контекст, а затем представляется парадигма обучения, управляемая предпочтениями, для МБЯМ путем создания пар предпочтений из смешанных и исходных изображений и оптимизации с помощью функции потерь SimPO. Как метод аугментации mixup, MergeMix улучшает согласованность и эффективность механизма внимания, превосходя другие эвристические методы в задачах классификации. Многочисленные эксперименты демонстрируют, что MergeMix достигает конкурентоспособной точности при повышенной эффективности, предлагая масштабируемый подход к выравниванию предпочтений в классификации и МБЯМ.
English
Vision-language alignment in multi-modal large language models (MLLMs) typically relies on supervised fine-tuning (SFT) or reinforcement learning (RL). SFT is stable and efficient but requires large-scale human annotations and cannot capture subtle preferences, while RL brings in a reward signal for training, but suffers from overhead and instability. These limitations highlight a trade-off between scalability, robustness, and alignment quality. To address this, we propose MergeMix, a training-time augmentation paradigm that bridges SFT and RL. It first applies an attention-aware image mixing via token merge with more cluster representation and spatial context, and then presents a preference-driven training paradigm for MLLMs by building preference pairs with mixed images and raw images, and optimizing via SimPO loss. As a mixup augmentation, MergeMix enhances attention consistency and efficiency, surpassing other heuristic-based methods in classification. Extensive experiments demonstrate that MergeMix achieves competitive accuracy with improved efficiency, providing a scalable approach to preference alignment in classification and MLLMs.
PDF141December 31, 2025