Optimisation sans compromis - Éliminer la redondance de calcul dans les LMM

papers.abstract

Les grands modèles multimodaux excellent dans les tâches multimodales mais rencontrent d'importants défis computationnels en raison d'un traitement excessif des tokens visuels. Contrairement aux méthodes de réduction de tokens qui se concentrent sur la redondance au niveau des tokens, nous identifions et étudions la redondance computationnelle sur les tokens visuels afin de garantir qu'aucune information ne soit perdue. Notre idée clé est que les tokens visuels issus de l'encodeur visuel pré-entraîné ne nécessitent pas nécessairement toutes les opérations lourdes (par exemple, l'auto-attention, les FFNs) dans les modèles LMM à décodeur uniquement, et pourraient être traités de manière plus légère avec des conceptions appropriées. Nous avons conçu une série d'expériences pour découvrir et réduire progressivement la redondance computationnelle liée à la vision. Sur la base de nos découvertes, nous proposons ProxyV, une approche novatrice qui utilise des tokens visuels proxy pour alléger la charge computationnelle sur les tokens visuels originaux. ProxyV améliore l'efficacité sans compromettre les performances et peut même entraîner des gains de performance notables dans des scénarios où les améliorations d'efficacité sont plus modérées. De plus, la flexibilité de ProxyV est démontrée par sa combinaison avec des méthodes de réduction de tokens pour accroître encore l'efficacité. Le code sera rendu public à l'URL suivante : https://github.com/penghao-wu/ProxyV.

English

Large multimodal models excel in multimodal tasks but face significant computational challenges due to excessive computation on visual tokens. Unlike token reduction methods that focus on token-level redundancy, we identify and study the computation-level redundancy on vision tokens to ensure no information loss. Our key insight is that vision tokens from the pretrained vision encoder do not necessarily require all the heavy operations (e.g., self-attention, FFNs) in decoder-only LMMs and could be processed more lightly with proper designs. We designed a series of experiments to discover and progressively squeeze out the vision-related computation redundancy. Based on our findings, we propose ProxyV, a novel approach that utilizes proxy vision tokens to alleviate the computational burden on original vision tokens. ProxyV enhances efficiency without compromising performance and can even yield notable performance gains in scenarios with more moderate efficiency improvements. Furthermore, the flexibility of ProxyV is demonstrated through its combination with token reduction methods to boost efficiency further. The code will be made public at this https://github.com/penghao-wu/ProxyV URL.

Optimisation sans compromis - Éliminer la redondance de calcul dans les LMM

Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM

papers.abstract

Support