Otimização sem Compromissos - Eliminando Redundâncias Computacionais em LMMs

Resumo

Grandes modelos multimodais se destacam em tarefas multimodais, mas enfrentam desafios computacionais significativos devido ao excesso de computação em tokens visuais. Diferentemente dos métodos de redução de tokens que se concentram na redundância em nível de token, identificamos e estudamos a redundância em nível de computação nos tokens visuais para garantir que não haja perda de informação. Nossa principal percepção é que os tokens visuais provenientes do codificador visual pré-treinado não necessariamente exigem todas as operações pesadas (por exemplo, auto-atenção, FFNs) em modelos LMMs apenas de decodificação e poderiam ser processados de forma mais leve com designs adequados. Projetamos uma série de experimentos para descobrir e progressivamente eliminar a redundância computacional relacionada à visão. Com base em nossas descobertas, propomos o ProxyV, uma abordagem inovadora que utiliza tokens visuais proxy para aliviar a carga computacional nos tokens visuais originais. O ProxyV aumenta a eficiência sem comprometer o desempenho e pode até gerar ganhos notáveis de desempenho em cenários com melhorias de eficiência mais moderadas. Além disso, a flexibilidade do ProxyV é demonstrada por meio de sua combinação com métodos de redução de tokens para aumentar ainda mais a eficiência. O código será disponibilizado publicamente neste URL: https://github.com/penghao-wu/ProxyV.

English

Large multimodal models excel in multimodal tasks but face significant computational challenges due to excessive computation on visual tokens. Unlike token reduction methods that focus on token-level redundancy, we identify and study the computation-level redundancy on vision tokens to ensure no information loss. Our key insight is that vision tokens from the pretrained vision encoder do not necessarily require all the heavy operations (e.g., self-attention, FFNs) in decoder-only LMMs and could be processed more lightly with proper designs. We designed a series of experiments to discover and progressively squeeze out the vision-related computation redundancy. Based on our findings, we propose ProxyV, a novel approach that utilizes proxy vision tokens to alleviate the computational burden on original vision tokens. ProxyV enhances efficiency without compromising performance and can even yield notable performance gains in scenarios with more moderate efficiency improvements. Furthermore, the flexibility of ProxyV is demonstrated through its combination with token reduction methods to boost efficiency further. The code will be made public at this https://github.com/penghao-wu/ProxyV URL.

Otimização sem Compromissos - Eliminando Redundâncias Computacionais em LMMs

Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM

Resumo

Support