Effizienz ohne Kompromisse – Redundanz in der Berechnung von LMM reduzieren
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM
May 21, 2025
Autoren: Penghao Wu, Lewei Lu, Ziwei Liu
cs.AI
Zusammenfassung
Große multimodale Modelle glänzen bei multimodalen Aufgaben, stehen jedoch aufgrund des übermäßigen Rechenaufwands für visuelle Tokens vor erheblichen rechnerischen Herausforderungen. Im Gegensatz zu Token-Reduktionsmethoden, die sich auf Redundanz auf Token-Ebene konzentrieren, identifizieren und untersuchen wir die Redundanz auf Rechenebene bei visuellen Tokens, um sicherzustellen, dass keine Informationsverluste entstehen. Unsere zentrale Erkenntnis ist, dass visuelle Tokens aus dem vortrainierten visuellen Encoder nicht unbedingt alle aufwendigen Operationen (z. B. Self-Attention, FFNs) in decoder-only LMMs benötigen und mit geeigneten Designs leichter verarbeitet werden könnten. Wir haben eine Reihe von Experimenten entworfen, um die visuell bedingte Rechenredundanz zu entdecken und schrittweise zu reduzieren. Basierend auf unseren Erkenntnissen schlagen wir ProxyV vor, einen neuartigen Ansatz, der Proxy-Vision-Tokens nutzt, um die Rechenlast auf die ursprünglichen visuellen Tokens zu verringern. ProxyV steigert die Effizienz, ohne die Leistung zu beeinträchtigen, und kann sogar bemerkenswerte Leistungssteigerungen in Szenarien mit moderateren Effizienzverbesserungen erzielen. Darüber hinaus wird die Flexibilität von ProxyV durch die Kombination mit Token-Reduktionsmethoden zur weiteren Steigerung der Effizienz demonstriert. Der Code wird unter dieser URL https://github.com/penghao-wu/ProxyV öffentlich zugänglich gemacht.
English
Large multimodal models excel in multimodal tasks but face significant
computational challenges due to excessive computation on visual tokens. Unlike
token reduction methods that focus on token-level redundancy, we identify and
study the computation-level redundancy on vision tokens to ensure no
information loss. Our key insight is that vision tokens from the pretrained
vision encoder do not necessarily require all the heavy operations (e.g.,
self-attention, FFNs) in decoder-only LMMs and could be processed more lightly
with proper designs. We designed a series of experiments to discover and
progressively squeeze out the vision-related computation redundancy. Based on
our findings, we propose ProxyV, a novel approach that utilizes proxy vision
tokens to alleviate the computational burden on original vision tokens. ProxyV
enhances efficiency without compromising performance and can even yield notable
performance gains in scenarios with more moderate efficiency improvements.
Furthermore, the flexibility of ProxyV is demonstrated through its combination
with token reduction methods to boost efficiency further. The code will be made
public at this https://github.com/penghao-wu/ProxyV URL.Summary
AI-Generated Summary