DyMU:効率的な視覚言語モデルのための動的マージと仮想アンマージ
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
April 23, 2025
著者: Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu
cs.AI
要旨
我々は、視覚言語モデル(VLM)の計算負荷を動的に削減しながら高いタスク性能を維持する、効率的で学習不要なフレームワーク「DyMU」を提案する。本手法は2つの主要なコンポーネントから構成される。第一に、Dynamic Token Merging(DToMe)は、画像の複雑度に基づいて類似したトークンを統合することで視覚トークン埋め込みの数を削減し、視覚Transformerにおける固定長出力の非効率性に対処する。第二に、Virtual Token Unmerging(VTU)は、完全なシーケンスのアテンション動態を効率的に再構築することで大規模言語モデル(LLM)の期待されるトークンシーケンスをシミュレートし、追加のファインチューニングなしで下流タスクの性能を維持する。従来の手法とは異なり、本手法は画像の内容に応じてトークン圧縮を動的に適応させ、完全に学習不要で動作するため、最新のVLMアーキテクチャのほとんどに容易に適用可能である。画像および映像理解タスクにおける広範な実験により、DyMUが視覚トークン数を平均32%-85%削減しながら、AnyResベースの視覚エンコーダを含む多様なVLMアーキテクチャにおいて、完全長モデルと同等の性能を達成できることを実証した。さらに、定性的分析を通じて、DToMeが画像の複雑度に基づいてトークン削減を効果的に適応させ、既存システムとは異なり、ユーザーが計算コストをより制御できることを示した。プロジェクトページ:https://mikewangwzhl.github.io/dymu/。
English
We present DyMU, an efficient, training-free framework that dynamically
reduces the computational burden of vision-language models (VLMs) while
maintaining high task performance. Our approach comprises two key components.
First, Dynamic Token Merging (DToMe) reduces the number of visual token
embeddings by merging similar tokens based on image complexity, addressing the
inherent inefficiency of fixed-length outputs in vision transformers. Second,
Virtual Token Unmerging (VTU) simulates the expected token sequence for large
language models (LLMs) by efficiently reconstructing the attention dynamics of
a full sequence, thus preserving the downstream performance without additional
fine-tuning. Unlike previous approaches, our method dynamically adapts token
compression to the content of the image and operates completely training-free,
making it readily applicable to most state-of-the-art VLM architectures.
Extensive experiments on image and video understanding tasks demonstrate that
DyMU can reduce the average visual token count by 32%-85% while achieving
comparable performance to full-length models across diverse VLM architectures,
including the recently popularized AnyRes-based visual encoders. Furthermore,
through qualitative analyses, we demonstrate that DToMe effectively adapts
token reduction based on image complexity and, unlike existing systems,
provides users more control over computational costs. Project page:
https://mikewangwzhl.github.io/dymu/.Summary
AI-Generated Summary