ChatPaper.aiChatPaper

MergeMix : un paradigme unifié d'augmentation pour la compréhension visuelle et multimodale

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

October 27, 2025
papers.authors: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang
cs.AI

papers.abstract

L'alignement vision-langage dans les modèles de langage de grande taille multimodaux (MLLMs) repose généralement sur le fine-tuning supervisé (SFT) ou l'apprentissage par renforcement (RL). Le SFT est stable et efficace mais nécessite des annotations humaines à grande échelle et ne peut pas capturer les préférences subtiles, tandis que le RL introduit un signal de récompense pour l'entraînement, mais souffre de surcharge computationnelle et d'instabilité. Ces limitations mettent en lumière un compromis entre l'évolutivité, la robustesse et la qualité de l'alignement. Pour résoudre ce problème, nous proposons MergeMix, un paradigme d'augmentation à l'entraînement qui fait le pont entre le SFT et le RL. Il applique d'abord un mélange d'images sensible à l'attention via une fusion de tokens avec une représentation plus clusterisée et un contexte spatial, puis présente un paradigme d'entraînement axé sur les préférences pour les MLLMs en construisant des paires de préférences avec des images mélangées et des images brutes, et en optimisant via la perte SimPO. En tant qu'augmentation de type mixup, MergeMix améliore la cohérence et l'efficacité de l'attention, surpassant les autres méthodes heuristiques en classification. Des expériences approfondies démontrent que MergeMix atteint une précision compétitive avec une efficacité améliorée, fournissant une approche évolutive pour l'alignement des préférences dans la classification et les MLLMs.
English
Vision-language alignment in multi-modal large language models (MLLMs) typically relies on supervised fine-tuning (SFT) or reinforcement learning (RL). SFT is stable and efficient but requires large-scale human annotations and cannot capture subtle preferences, while RL brings in a reward signal for training, but suffers from overhead and instability. These limitations highlight a trade-off between scalability, robustness, and alignment quality. To address this, we propose MergeMix, a training-time augmentation paradigm that bridges SFT and RL. It first applies an attention-aware image mixing via token merge with more cluster representation and spatial context, and then presents a preference-driven training paradigm for MLLMs by building preference pairs with mixed images and raw images, and optimizing via SimPO loss. As a mixup augmentation, MergeMix enhances attention consistency and efficiency, surpassing other heuristic-based methods in classification. Extensive experiments demonstrate that MergeMix achieves competitive accuracy with improved efficiency, providing a scalable approach to preference alignment in classification and MLLMs.
PDF141December 31, 2025