La riduzione dei token dovrebbe andare oltre l'efficienza nei modelli generativi -- Dalla visione, al linguaggio, alla multimodalità

Abstract

Nelle architetture Transformer, i token\textemdash unità discrete derivate dai dati grezzi\textemdash vengono formati segmentando gli input in blocchi di lunghezza fissa. Ogni token viene poi mappato in un embedding, consentendo calcoli di attenzione paralleli preservando le informazioni essenziali dell'input. A causa della complessità computazionale quadratica dei meccanismi di self-attention dei transformer, la riduzione dei token è stata principalmente utilizzata come strategia di efficienza. Ciò è particolarmente vero nei domini di visione e linguaggio singoli, dove aiuta a bilanciare i costi computazionali, l'uso della memoria e la latenza di inferenza. Nonostante questi progressi, questo articolo sostiene che la riduzione dei token dovrebbe trascendere il suo ruolo tradizionale orientato all'efficienza nell'era dei grandi modelli generativi. Invece, la posizioniamo come un principio fondamentale nella modellazione generativa, influenzando criticamente sia l'architettura del modello che le applicazioni più ampie. Nello specifico, sosteniamo che, nei sistemi di visione, linguaggio e multimodali, la riduzione dei token può: (i) facilitare un'integrazione e un allineamento multimodale più profondo, (ii) mitigare il "sovrapensiero" e le allucinazioni, (iii) mantenere la coerenza su input lunghi e (iv) migliorare la stabilità dell'addestramento, tra gli altri. Riformuliamo la riduzione dei token come più di una misura di efficienza. In tal modo, delineiamo promettenti direzioni future, tra cui la progettazione di algoritmi, la riduzione dei token guidata dal reinforcement learning, l'ottimizzazione dei token per l'apprendimento in contesto e i domini più ampi dell'apprendimento automatico e scientifico. Ne evidenziamo il potenziale di guidare nuove architetture di modelli e strategie di apprendimento che migliorano la robustezza, aumentano l'interpretabilità e si allineano meglio agli obiettivi della modellazione generativa.

English

In Transformer architectures, tokens\textemdash discrete units derived from raw data\textemdash are formed by segmenting inputs into fixed-length chunks. Each token is then mapped to an embedding, enabling parallel attention computations while preserving the input's essential information. Due to the quadratic computational complexity of transformer self-attention mechanisms, token reduction has primarily been used as an efficiency strategy. This is especially true in single vision and language domains, where it helps balance computational costs, memory usage, and inference latency. Despite these advances, this paper argues that token reduction should transcend its traditional efficiency-oriented role in the era of large generative models. Instead, we position it as a fundamental principle in generative modeling, critically influencing both model architecture and broader applications. Specifically, we contend that across vision, language, and multimodal systems, token reduction can: (i) facilitate deeper multimodal integration and alignment, (ii) mitigate "overthinking" and hallucinations, (iii) maintain coherence over long inputs, and (iv) enhance training stability, etc. We reframe token reduction as more than an efficiency measure. By doing so, we outline promising future directions, including algorithm design, reinforcement learning-guided token reduction, token optimization for in-context learning, and broader ML and scientific domains. We highlight its potential to drive new model architectures and learning strategies that improve robustness, increase interpretability, and better align with the objectives of generative modeling.

La riduzione dei token dovrebbe andare oltre l'efficienza nei modelli generativi -- Dalla visione, al linguaggio, alla multimodalità

Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality

Abstract

Support