少即是多:面向高效图像表征的自适应令牌缩减When Less is Enough: Adaptive Token Reduction for Efficient Image
Representation
视觉编码器通常生成大量视觉标记,提供了信息丰富的表征,但显著增加了计算需求。这引发了一个问题:所有生成的标记是否同等重要,或者是否可以舍弃其中一部分以降低计算成本而不影响质量。本文中,我们引入了一种基于“低价值特征可从高价值特征中重建”理念的新方法,用于确定特征效用。我们通过将自编码器与Gumbel-Softmax选择机制相结合来实现这一概念,该机制能够识别并仅保留最具信息量的视觉标记。为验证我们的方法,我们比较了LLaVA-NeXT模型在使用我们方法筛选的特征与随机选择特征时的表现。我们发现,在基于OCR的任务中,超过50%的视觉上下文可以被移除而仅有微小的性能损失,而随机丢弃相同比例的特征则显著影响模型能力。此外,在通用领域任务中,即使随机保留仅30%的标记,也能达到与使用完整视觉标记集相当的性能。我们的研究结果揭示了一个有前景的方向,即实现自适应且高效的多模态剪枝,从而在不牺牲性能的前提下促进可扩展且低开销的推理。