ChatPaper.aiChatPaper

Suavizar el Acelerador: Revisitando la Poda de Tokens Visuales para la Aceleración de Modelos Visión-Lenguaje

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

December 17, 2024
Autores: Mark Endo, Xiaohan Wang, Serena Yeung-Levy
cs.AI

Resumen

Trabajos recientes sobre la aceleración de Modelos de Visión-Lenguaje muestran que se puede mantener un rendimiento sólido en una variedad de tareas de visión-lenguaje a pesar de comprimir de manera significativa la información visual. En este trabajo, examinamos el enfoque popular de aceleración mediante la poda temprana de tokens visuales dentro del modelo de lenguaje y encontramos que su sólido rendimiento en muchas tareas no se debe a una capacidad excepcional para comprimir información visual, sino más bien a la limitada capacidad de los puntos de referencia para evaluar las capacidades visuales detalladas. Específicamente, demostramos un problema central con el enfoque de aceleración donde se eliminan la mayoría de los tokens hacia la parte superior de la imagen. Sin embargo, este problema solo se refleja en el rendimiento para un pequeño subconjunto de tareas como la localización. Para las otras tareas evaluadas, se mantiene un sólido rendimiento con la estrategia de poda defectuosa. Observando las limitadas capacidades visuales de la técnica de aceleración estudiada, proponemos FEATHER (Aceleración Rápida y Efectiva con Criterios de Ensamble), un enfoque sencillo que (1) resuelve el problema identificado con la poda en capas tempranas, (2) incorpora muestreo uniforme para garantizar cobertura en todas las regiones de la imagen, y (3) aplica la poda en dos etapas para permitir que los criterios sean más efectivos en una capa posterior mientras aún se logra una aceleración significativa a través de la poda en capas tempranas. Con ahorros computacionales comparables, encontramos que FEATHER tiene más de 5 veces de mejora en el rendimiento en los puntos de referencia de localización centrados en la visión en comparación con el enfoque de aceleración original.
English
Recent works on accelerating Vision-Language Models show that strong performance can be maintained across a variety of vision-language tasks despite highly compressing visual information. In this work, we examine the popular acceleration approach of early pruning of visual tokens inside the language model and find that its strong performance across many tasks is not due to an exceptional ability to compress visual information, but rather the benchmarks' limited ability to assess fine-grained visual capabilities. Namely, we demonstrate a core issue with the acceleration approach where most tokens towards the top of the image are pruned away. Yet, this issue is only reflected in performance for a small subset of tasks such as localization. For the other evaluated tasks, strong performance is maintained with the flawed pruning strategy. Noting the limited visual capabilities of the studied acceleration technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble cRiteria), a straightforward approach that (1) resolves the identified issue with early-layer pruning, (2) incorporates uniform sampling to ensure coverage across all image regions, and (3) applies pruning in two stages to allow the criteria to become more effective at a later layer while still achieving significant speedup through early-layer pruning. With comparable computational savings, we find that FEATHER has more than 5times performance improvement on the vision-centric localization benchmarks compared to the original acceleration approach.

Summary

AI-Generated Summary

PDF132December 18, 2024