Optimización sin Compromisos: Eliminación de Redundancias Computacionales en LMM

Resumen

Los modelos multimodales de gran escala destacan en tareas multimodales, pero enfrentan desafíos computacionales significativos debido al excesivo procesamiento de tokens visuales. A diferencia de los métodos de reducción de tokens que se centran en la redundancia a nivel de token, identificamos y estudiamos la redundancia a nivel de computación en los tokens visuales para garantizar que no se pierda información. Nuestra idea clave es que los tokens visuales provenientes del codificador visual preentrenado no necesariamente requieren todas las operaciones intensivas (por ejemplo, autoatención, FFNs) en los modelos multimodales de solo decodificador y podrían procesarse de manera más ligera con diseños adecuados. Diseñamos una serie de experimentos para descubrir y eliminar progresivamente la redundancia computacional relacionada con la visión. Basándonos en nuestros hallazgos, proponemos ProxyV, un enfoque novedoso que utiliza tokens visuales proxy para aliviar la carga computacional en los tokens visuales originales. ProxyV mejora la eficiencia sin comprometer el rendimiento e incluso puede generar ganancias notables en escenarios con mejoras de eficiencia más moderadas. Además, la flexibilidad de ProxyV se demuestra a través de su combinación con métodos de reducción de tokens para aumentar aún más la eficiencia. El código estará disponible públicamente en esta URL: https://github.com/penghao-wu/ProxyV.

English

Large multimodal models excel in multimodal tasks but face significant computational challenges due to excessive computation on visual tokens. Unlike token reduction methods that focus on token-level redundancy, we identify and study the computation-level redundancy on vision tokens to ensure no information loss. Our key insight is that vision tokens from the pretrained vision encoder do not necessarily require all the heavy operations (e.g., self-attention, FFNs) in decoder-only LMMs and could be processed more lightly with proper designs. We designed a series of experiments to discover and progressively squeeze out the vision-related computation redundancy. Based on our findings, we propose ProxyV, a novel approach that utilizes proxy vision tokens to alleviate the computational burden on original vision tokens. ProxyV enhances efficiency without compromising performance and can even yield notable performance gains in scenarios with more moderate efficiency improvements. Furthermore, the flexibility of ProxyV is demonstrated through its combination with token reduction methods to boost efficiency further. The code will be made public at this https://github.com/penghao-wu/ProxyV URL.

Optimización sin Compromisos: Eliminación de Redundancias Computacionales en LMM

Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM

Resumen

Support