La riduzione dei token dovrebbe andare oltre l'efficienza nei modelli generativi -- Dalla visione, al linguaggio, alla multimodalità
Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality
May 23, 2025
Autori: Zhenglun Kong, Yize Li, Fanhu Zeng, Lei Xin, Shvat Messica, Xue Lin, Pu Zhao, Manolis Kellis, Hao Tang, Marinka Zitnik
cs.AI
Abstract
Nelle architetture Transformer, i token\textemdash unità discrete derivate dai dati grezzi\textemdash vengono formati segmentando gli input in blocchi di lunghezza fissa. Ogni token viene poi mappato in un embedding, consentendo calcoli di attenzione paralleli preservando le informazioni essenziali dell'input. A causa della complessità computazionale quadratica dei meccanismi di self-attention dei transformer, la riduzione dei token è stata principalmente utilizzata come strategia di efficienza. Ciò è particolarmente vero nei domini di visione e linguaggio singoli, dove aiuta a bilanciare i costi computazionali, l'uso della memoria e la latenza di inferenza. Nonostante questi progressi, questo articolo sostiene che la riduzione dei token dovrebbe trascendere il suo ruolo tradizionale orientato all'efficienza nell'era dei grandi modelli generativi. Invece, la posizioniamo come un principio fondamentale nella modellazione generativa, influenzando criticamente sia l'architettura del modello che le applicazioni più ampie. Nello specifico, sosteniamo che, nei sistemi di visione, linguaggio e multimodali, la riduzione dei token può: (i) facilitare un'integrazione e un allineamento multimodale più profondo, (ii) mitigare il "sovrapensiero" e le allucinazioni, (iii) mantenere la coerenza su input lunghi e (iv) migliorare la stabilità dell'addestramento, tra gli altri. Riformuliamo la riduzione dei token come più di una misura di efficienza. In tal modo, delineiamo promettenti direzioni future, tra cui la progettazione di algoritmi, la riduzione dei token guidata dal reinforcement learning, l'ottimizzazione dei token per l'apprendimento in contesto e i domini più ampi dell'apprendimento automatico e scientifico. Ne evidenziamo il potenziale di guidare nuove architetture di modelli e strategie di apprendimento che migliorano la robustezza, aumentano l'interpretabilità e si allineano meglio agli obiettivi della modellazione generativa.
English
In Transformer architectures, tokens\textemdash discrete units derived from
raw data\textemdash are formed by segmenting inputs into fixed-length chunks.
Each token is then mapped to an embedding, enabling parallel attention
computations while preserving the input's essential information. Due to the
quadratic computational complexity of transformer self-attention mechanisms,
token reduction has primarily been used as an efficiency strategy. This is
especially true in single vision and language domains, where it helps balance
computational costs, memory usage, and inference latency. Despite these
advances, this paper argues that token reduction should transcend its
traditional efficiency-oriented role in the era of large generative models.
Instead, we position it as a fundamental principle in generative modeling,
critically influencing both model architecture and broader applications.
Specifically, we contend that across vision, language, and multimodal systems,
token reduction can: (i) facilitate deeper multimodal integration and
alignment, (ii) mitigate "overthinking" and hallucinations, (iii) maintain
coherence over long inputs, and (iv) enhance training stability, etc. We
reframe token reduction as more than an efficiency measure. By doing so, we
outline promising future directions, including algorithm design, reinforcement
learning-guided token reduction, token optimization for in-context learning,
and broader ML and scientific domains. We highlight its potential to drive new
model architectures and learning strategies that improve robustness, increase
interpretability, and better align with the objectives of generative modeling.