Ottimizzazione Senza Compromessi - Ridurre la Ridondanza Computazionale nei Modelli Linguistici Multimodali
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM
May 21, 2025
Autori: Penghao Wu, Lewei Lu, Ziwei Liu
cs.AI
Abstract
I grandi modelli multimodali eccellono nei compiti multimodali ma affrontano significative sfide computazionali a causa dell'eccessivo calcolo sui token visivi. A differenza dei metodi di riduzione dei token che si concentrano sulla ridondanza a livello di token, noi identifichiamo e studiamo la ridondanza a livello di calcolo sui token visivi per garantire che non ci sia perdita di informazioni. La nostra intuizione chiave è che i token visivi provenienti dall'encoder visivo pre-addestrato non richiedono necessariamente tutte le operazioni pesanti (ad esempio, self-attention, FFN) nei LMM solo decoder e potrebbero essere elaborati in modo più leggero con progetti adeguati. Abbiamo progettato una serie di esperimenti per scoprire e ridurre progressivamente la ridondanza computazionale legata alla visione. Sulla base delle nostre scoperte, proponiamo ProxyV, un approccio innovativo che utilizza token visivi proxy per alleviare il carico computazionale sui token visivi originali. ProxyV migliora l'efficienza senza compromettere le prestazioni e può persino produrre notevoli miglioramenti delle prestazioni in scenari con miglioramenti di efficienza più moderati. Inoltre, la flessibilità di ProxyV è dimostrata dalla sua combinazione con metodi di riduzione dei token per aumentare ulteriormente l'efficienza. Il codice sarà reso pubblico all'URL https://github.com/penghao-wu/ProxyV.
English
Large multimodal models excel in multimodal tasks but face significant
computational challenges due to excessive computation on visual tokens. Unlike
token reduction methods that focus on token-level redundancy, we identify and
study the computation-level redundancy on vision tokens to ensure no
information loss. Our key insight is that vision tokens from the pretrained
vision encoder do not necessarily require all the heavy operations (e.g.,
self-attention, FFNs) in decoder-only LMMs and could be processed more lightly
with proper designs. We designed a series of experiments to discover and
progressively squeeze out the vision-related computation redundancy. Based on
our findings, we propose ProxyV, a novel approach that utilizes proxy vision
tokens to alleviate the computational burden on original vision tokens. ProxyV
enhances efficiency without compromising performance and can even yield notable
performance gains in scenarios with more moderate efficiency improvements.
Furthermore, the flexibility of ProxyV is demonstrated through its combination
with token reduction methods to boost efficiency further. The code will be made
public at this https://github.com/penghao-wu/ProxyV URL.