Otimização sem Compromissos - Eliminando Redundâncias Computacionais em LMMs
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM
May 21, 2025
Autores: Penghao Wu, Lewei Lu, Ziwei Liu
cs.AI
Resumo
Grandes modelos multimodais se destacam em tarefas multimodais, mas enfrentam desafios computacionais significativos devido ao excesso de computação em tokens visuais. Diferentemente dos métodos de redução de tokens que se concentram na redundância em nível de token, identificamos e estudamos a redundância em nível de computação nos tokens visuais para garantir que não haja perda de informação. Nossa principal percepção é que os tokens visuais provenientes do codificador visual pré-treinado não necessariamente exigem todas as operações pesadas (por exemplo, auto-atenção, FFNs) em modelos LMMs apenas de decodificação e poderiam ser processados de forma mais leve com designs adequados. Projetamos uma série de experimentos para descobrir e progressivamente eliminar a redundância computacional relacionada à visão. Com base em nossas descobertas, propomos o ProxyV, uma abordagem inovadora que utiliza tokens visuais proxy para aliviar a carga computacional nos tokens visuais originais. O ProxyV aumenta a eficiência sem comprometer o desempenho e pode até gerar ganhos notáveis de desempenho em cenários com melhorias de eficiência mais moderadas. Além disso, a flexibilidade do ProxyV é demonstrada por meio de sua combinação com métodos de redução de tokens para aumentar ainda mais a eficiência. O código será disponibilizado publicamente neste URL: https://github.com/penghao-wu/ProxyV.
English
Large multimodal models excel in multimodal tasks but face significant
computational challenges due to excessive computation on visual tokens. Unlike
token reduction methods that focus on token-level redundancy, we identify and
study the computation-level redundancy on vision tokens to ensure no
information loss. Our key insight is that vision tokens from the pretrained
vision encoder do not necessarily require all the heavy operations (e.g.,
self-attention, FFNs) in decoder-only LMMs and could be processed more lightly
with proper designs. We designed a series of experiments to discover and
progressively squeeze out the vision-related computation redundancy. Based on
our findings, we propose ProxyV, a novel approach that utilizes proxy vision
tokens to alleviate the computational burden on original vision tokens. ProxyV
enhances efficiency without compromising performance and can even yield notable
performance gains in scenarios with more moderate efficiency improvements.
Furthermore, the flexibility of ProxyV is demonstrated through its combination
with token reduction methods to boost efficiency further. The code will be made
public at this https://github.com/penghao-wu/ProxyV URL.