ChatPaper.aiChatPaper

Stroomlijnen zonder Compromis - Verwijder Rekenredundantie in LMM

Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM

May 21, 2025
Auteurs: Penghao Wu, Lewei Lu, Ziwei Liu
cs.AI

Samenvatting

Grote multimodale modellen blinken uit in multimodale taken, maar worden geconfronteerd met aanzienlijke computationele uitdagingen vanwege overmatige berekeningen op visuele tokens. In tegenstelling tot tokenreductiemethoden die zich richten op redundantie op tokenniveau, identificeren en bestuderen wij de redundantie op computationeel niveau voor visuele tokens om informatieverlies te voorkomen. Onze belangrijkste inzicht is dat visuele tokens van de vooraf getrainde visuele encoder niet per se alle zware operaties (bijv. self-attention, FFNs) in decoder-only LMM's nodig hebben en met de juiste ontwerpen lichter verwerkt kunnen worden. We hebben een reeks experimenten ontworpen om de visiegerelateerde computationele redundantie te ontdekken en geleidelijk uit te persen. Op basis van onze bevindingen stellen we ProxyV voor, een nieuwe aanpak die proxy-visuele tokens gebruikt om de computationele belasting van de originele visuele tokens te verlichten. ProxyV verbetert de efficiëntie zonder in te leveren op prestaties en kan zelfs aanzienlijke prestatieverbeteringen opleveren in scenario's met meer gematigde efficiëntieverbeteringen. Bovendien wordt de flexibiliteit van ProxyV aangetoond door de combinatie met tokenreductiemethoden om de efficiëntie verder te verhogen. De code zal openbaar gemaakt worden op deze https://github.com/penghao-wu/ProxyV URL.
English
Large multimodal models excel in multimodal tasks but face significant computational challenges due to excessive computation on visual tokens. Unlike token reduction methods that focus on token-level redundancy, we identify and study the computation-level redundancy on vision tokens to ensure no information loss. Our key insight is that vision tokens from the pretrained vision encoder do not necessarily require all the heavy operations (e.g., self-attention, FFNs) in decoder-only LMMs and could be processed more lightly with proper designs. We designed a series of experiments to discover and progressively squeeze out the vision-related computation redundancy. Based on our findings, we propose ProxyV, a novel approach that utilizes proxy vision tokens to alleviate the computational burden on original vision tokens. ProxyV enhances efficiency without compromising performance and can even yield notable performance gains in scenarios with more moderate efficiency improvements. Furthermore, the flexibility of ProxyV is demonstrated through its combination with token reduction methods to boost efficiency further. The code will be made public at this https://github.com/penghao-wu/ProxyV URL.
PDF32May 22, 2025