Оптимизация без потерь — устранение избыточности вычислений в LMM
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM
May 21, 2025
Авторы: Penghao Wu, Lewei Lu, Ziwei Liu
cs.AI
Аннотация
Крупные мультимодальные модели демонстрируют выдающиеся результаты в мультимодальных задачах, но сталкиваются с серьезными вычислительными трудностями из-за чрезмерных вычислений на визуальных токенах. В отличие от методов сокращения токенов, которые сосредоточены на избыточности на уровне токенов, мы выявляем и исследуем избыточность вычислений на визуальных токенах, чтобы гарантировать отсутствие потери информации. Наше ключевое наблюдение заключается в том, что визуальные токены из предварительно обученного визуального кодера не обязательно требуют всех тяжелых операций (например, self-attention, FFN) в декодер-ориентированных LMM и могут обрабатываться более легкими способами при правильном проектировании. Мы разработали серию экспериментов для обнаружения и постепенного устранения избыточности вычислений, связанных с визуальными данными. На основе наших выводов мы предлагаем ProxyV — новый подход, который использует прокси-визуальные токены для снижения вычислительной нагрузки на исходные визуальные токены. ProxyV повышает эффективность без ущерба для производительности и даже может привести к заметному улучшению производительности в сценариях с умеренным повышением эффективности. Кроме того, гибкость ProxyV демонстрируется за счет его комбинации с методами сокращения токенов для дальнейшего повышения эффективности. Код будет опубликован по адресу https://github.com/penghao-wu/ProxyV.
English
Large multimodal models excel in multimodal tasks but face significant
computational challenges due to excessive computation on visual tokens. Unlike
token reduction methods that focus on token-level redundancy, we identify and
study the computation-level redundancy on vision tokens to ensure no
information loss. Our key insight is that vision tokens from the pretrained
vision encoder do not necessarily require all the heavy operations (e.g.,
self-attention, FFNs) in decoder-only LMMs and could be processed more lightly
with proper designs. We designed a series of experiments to discover and
progressively squeeze out the vision-related computation redundancy. Based on
our findings, we propose ProxyV, a novel approach that utilizes proxy vision
tokens to alleviate the computational burden on original vision tokens. ProxyV
enhances efficiency without compromising performance and can even yield notable
performance gains in scenarios with more moderate efficiency improvements.
Furthermore, the flexibility of ProxyV is demonstrated through its combination
with token reduction methods to boost efficiency further. The code will be made
public at this https://github.com/penghao-wu/ProxyV URL.Summary
AI-Generated Summary