ChatPaper.aiChatPaper

Wanneer Minder Genoeg Is: Adaptieve Tokenreductie voor Efficiënte Beeldrepresentatie

When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

March 20, 2025
Auteurs: Eduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI

Samenvatting

Vision encoders genereren doorgaans een groot aantal visuele tokens, die informatie-rijke representaties bieden maar de rekenkundige eisen aanzienlijk verhogen. Dit roept de vraag op of alle gegenereerde tokens even waardevol zijn of dat sommige ervan kunnen worden verwijderd om de rekenkosten te verlagen zonder de kwaliteit aan te tasten. In dit artikel introduceren we een nieuwe methode om de bruikbaarheid van features te bepalen, gebaseerd op het idee dat minder waardevolle features kunnen worden gereconstrueerd uit meer waardevolle. We implementeren dit concept door een autoencoder te integreren met een Gumbel-Softmax-selectiemechanisme, waarmee de meest informatieve visuele tokens kunnen worden geïdentificeerd en behouden. Om onze aanpak te valideren, vergeleken we de prestaties van het LLaVA-NeXT-model, waarbij features werden geselecteerd met onze methode, met willekeurig geselecteerde features. We ontdekten dat bij OCR-gebaseerde taken meer dan 50% van de visuele context kan worden verwijderd met minimaal prestatieverlies, terwijl het willekeurig verwijderen van dezelfde hoeveelheid features de modelcapaciteiten aanzienlijk beïnvloedt. Bovendien behaalt bij algemene taken zelfs het willekeurig behouden van slechts 30% van de tokens prestaties die vergelijkbaar zijn met het gebruik van de volledige set visuele tokens. Onze resultaten wijzen op een veelbelovende richting naar adaptief en efficiënt multimodaal snoeien, wat schaalbare en low-overhead inferentie mogelijk maakt zonder in te leveren op prestaties.
English
Vision encoders typically generate a large number of visual tokens, providing information-rich representations but significantly increasing computational demands. This raises the question of whether all generated tokens are equally valuable or if some of them can be discarded to reduce computational costs without compromising quality. In this paper, we introduce a new method for determining feature utility based on the idea that less valuable features can be reconstructed from more valuable ones. We implement this concept by integrating an autoencoder with a Gumbel-Softmax selection mechanism, that allows identifying and retaining only the most informative visual tokens. To validate our approach, we compared the performance of the LLaVA-NeXT model, using features selected by our method with randomly selected features. We found that on OCR-based tasks, more than 50% of the visual context can be removed with minimal performance loss, whereas randomly discarding the same proportion of features significantly affects the model capabilities. Furthermore, in general-domain tasks, even randomly retaining only 30% of tokens achieves performance comparable to using the full set of visual tokens. Our results highlight a promising direction towards adaptive and efficient multimodal pruning that facilitates scalable and low-overhead inference without compromising performance.

Summary

AI-Generated Summary

PDF732March 24, 2025