MergeMix: Un Paradigma Unificato di Augmentation per la Comprensione Visiva e Multimodale

Abstract

L'allineamento visione-linguaggio nei modelli linguistici multimodali di grandi dimensioni (MLLM) si basa tipicamente sulla messa a punto supervisionata (SFT) o sull'apprendimento per rinforzo (RL). La SFT è stabile ed efficiente ma richiede annotazioni umane su larga scala e non può cogliere preferenze sottili, mentre il RL introduce un segnale di ricompensa per l'addestramento, ma soffre di sovraccarico computazionale e instabilità. Queste limitazioni evidenziano un compromesso tra scalabilità, robustezza e qualità dell'allineamento. Per affrontare ciò, proponiamo MergeMix, un paradigma di aumento dei dati durante l'addestramento che colma il divario tra SFT e RL. Esso applica prima un mixing di immagini basato sull'attenzione tramite la fusione di token con una maggiore rappresentazione cluster e contesto spaziale, e poi presenta un paradigma di addestramento guidato dalle preferenze per gli MLLM costruendo coppie di preferenza con immagini miste e immagini originali, e ottimizzando tramite la loss SimPO. Come tecnica di mixup, MergeMix migliora la consistenza e l'efficienza dell'attenzione, superando altri metodi euristici nella classificazione. Esperimenti estensivi dimostrano che MergeMix raggiunge un'accuratezza competitiva con un'efficienza migliorata, fornendo un approccio scalabile per l'allineamento delle preferenze nella classificazione e negli MLLM.

English

Vision-language alignment in multi-modal large language models (MLLMs) typically relies on supervised fine-tuning (SFT) or reinforcement learning (RL). SFT is stable and efficient but requires large-scale human annotations and cannot capture subtle preferences, while RL brings in a reward signal for training, but suffers from overhead and instability. These limitations highlight a trade-off between scalability, robustness, and alignment quality. To address this, we propose MergeMix, a training-time augmentation paradigm that bridges SFT and RL. It first applies an attention-aware image mixing via token merge with more cluster representation and spatial context, and then presents a preference-driven training paradigm for MLLMs by building preference pairs with mixed images and raw images, and optimizing via SimPO loss. As a mixup augmentation, MergeMix enhances attention consistency and efficiency, surpassing other heuristic-based methods in classification. Extensive experiments demonstrate that MergeMix achieves competitive accuracy with improved efficiency, providing a scalable approach to preference alignment in classification and MLLMs.

MergeMix: Un Paradigma Unificato di Augmentation per la Comprensione Visiva e Multimodale

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Abstract

Support