Optimización sin Compromisos: Eliminación de Redundancias Computacionales en LMM
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM
May 21, 2025
Autores: Penghao Wu, Lewei Lu, Ziwei Liu
cs.AI
Resumen
Los modelos multimodales de gran escala destacan en tareas multimodales, pero enfrentan desafíos computacionales significativos debido al excesivo procesamiento de tokens visuales. A diferencia de los métodos de reducción de tokens que se centran en la redundancia a nivel de token, identificamos y estudiamos la redundancia a nivel de computación en los tokens visuales para garantizar que no se pierda información. Nuestra idea clave es que los tokens visuales provenientes del codificador visual preentrenado no necesariamente requieren todas las operaciones intensivas (por ejemplo, autoatención, FFNs) en los modelos multimodales de solo decodificador y podrían procesarse de manera más ligera con diseños adecuados. Diseñamos una serie de experimentos para descubrir y eliminar progresivamente la redundancia computacional relacionada con la visión. Basándonos en nuestros hallazgos, proponemos ProxyV, un enfoque novedoso que utiliza tokens visuales proxy para aliviar la carga computacional en los tokens visuales originales. ProxyV mejora la eficiencia sin comprometer el rendimiento e incluso puede generar ganancias notables en escenarios con mejoras de eficiencia más moderadas. Además, la flexibilidad de ProxyV se demuestra a través de su combinación con métodos de reducción de tokens para aumentar aún más la eficiencia. El código estará disponible públicamente en esta URL: https://github.com/penghao-wu/ProxyV.
English
Large multimodal models excel in multimodal tasks but face significant
computational challenges due to excessive computation on visual tokens. Unlike
token reduction methods that focus on token-level redundancy, we identify and
study the computation-level redundancy on vision tokens to ensure no
information loss. Our key insight is that vision tokens from the pretrained
vision encoder do not necessarily require all the heavy operations (e.g.,
self-attention, FFNs) in decoder-only LMMs and could be processed more lightly
with proper designs. We designed a series of experiments to discover and
progressively squeeze out the vision-related computation redundancy. Based on
our findings, we propose ProxyV, a novel approach that utilizes proxy vision
tokens to alleviate the computational burden on original vision tokens. ProxyV
enhances efficiency without compromising performance and can even yield notable
performance gains in scenarios with more moderate efficiency improvements.
Furthermore, the flexibility of ProxyV is demonstrated through its combination
with token reduction methods to boost efficiency further. The code will be made
public at this https://github.com/penghao-wu/ProxyV URL.Summary
AI-Generated Summary