Quando Meno è Sufficiente: Riduzione Adattiva dei Token per una Rappresentazione Efficiente delle ImmaginiWhen Less is Enough: Adaptive Token Reduction for Efficient Image
Representation
Gli encoder visivi generano tipicamente un gran numero di token visivi, fornendo rappresentazioni ricche di informazioni ma aumentando significativamente le esigenze computazionali. Ciò solleva la questione se tutti i token generati siano ugualmente preziosi o se alcuni di essi possano essere scartati per ridurre i costi computazionali senza compromettere la qualità. In questo articolo, introduciamo un nuovo metodo per determinare l'utilità delle feature basato sull'idea che le feature meno preziose possano essere ricostruite da quelle più preziose. Implementiamo questo concetto integrando un autoencoder con un meccanismo di selezione Gumbel-Softmax, che consente di identificare e conservare solo i token visivi più informativi. Per validare il nostro approccio, abbiamo confrontato le prestazioni del modello LLaVA-NeXT, utilizzando feature selezionate dal nostro metodo con feature selezionate casualmente. Abbiamo scoperto che, nelle attività basate su OCR, più del 50% del contesto visivo può essere rimosso con una perdita minima di prestazioni, mentre scartare casualmente la stessa proporzione di feature influisce significativamente sulle capacità del modello. Inoltre, nelle attività di dominio generale, anche conservando casualmente solo il 30% dei token si ottengono prestazioni paragonabili all'utilizzo dell'intero set di token visivi. I nostri risultati evidenziano una direzione promettente verso un pruning multimodale adattivo ed efficiente che facilita inferenze scalabili e a basso overhead senza compromettere le prestazioni.