ChatPaper.aiChatPaper

La réduction de tokens devrait dépasser l'efficacité dans les modèles génératifs -- De la vision, du langage à la multimodalité.

Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality

May 23, 2025
Auteurs: Zhenglun Kong, Yize Li, Fanhu Zeng, Lei Xin, Shvat Messica, Xue Lin, Pu Zhao, Manolis Kellis, Hao Tang, Marinka Zitnik
cs.AI

Résumé

Dans les architectures Transformer, les tokens — unités discrètes dérivées de données brutes — sont formés en segmentant les entrées en blocs de longueur fixe. Chaque token est ensuite mappé à un embedding, permettant des calculs d'attention parallèles tout en préservant les informations essentielles de l'entrée. En raison de la complexité computationnelle quadratique des mécanismes d'auto-attention des Transformers, la réduction de tokens a principalement été utilisée comme une stratégie d'efficacité. Cela est particulièrement vrai dans les domaines de la vision et du langage, où elle aide à équilibrer les coûts computationnels, l'utilisation de la mémoire et la latence d'inférence. Malgré ces avancées, cet article soutient que la réduction de tokens devrait transcender son rôle traditionnel axé sur l'efficacité à l'ère des grands modèles génératifs. Nous la positionnons plutôt comme un principe fondamental en modélisation générative, influençant de manière critique à la fois l'architecture des modèles et leurs applications plus larges. Plus précisément, nous affirmons que, dans les systèmes de vision, de langage et multimodaux, la réduction de tokens peut : (i) faciliter une intégration et un alignement multimodaux plus profonds, (ii) atténuer la "surréflexion" et les hallucinations, (iii) maintenir la cohérence sur des entrées longues, et (iv) améliorer la stabilité de l'entraînement, entre autres. Nous redéfinissons la réduction de tokens comme allant au-delà d'une simple mesure d'efficacité. Ce faisant, nous esquissons des directions futures prometteuses, incluant la conception d'algorithmes, la réduction de tokens guidée par l'apprentissage par renforcement, l'optimisation des tokens pour l'apprentissage en contexte, ainsi que des domaines plus larges de l'apprentissage automatique et des sciences. Nous mettons en lumière son potentiel à inspirer de nouvelles architectures de modèles et stratégies d'apprentissage qui améliorent la robustesse, augmentent l'interprétabilité et s'alignent mieux sur les objectifs de la modélisation générative.
English
In Transformer architectures, tokens\textemdash discrete units derived from raw data\textemdash are formed by segmenting inputs into fixed-length chunks. Each token is then mapped to an embedding, enabling parallel attention computations while preserving the input's essential information. Due to the quadratic computational complexity of transformer self-attention mechanisms, token reduction has primarily been used as an efficiency strategy. This is especially true in single vision and language domains, where it helps balance computational costs, memory usage, and inference latency. Despite these advances, this paper argues that token reduction should transcend its traditional efficiency-oriented role in the era of large generative models. Instead, we position it as a fundamental principle in generative modeling, critically influencing both model architecture and broader applications. Specifically, we contend that across vision, language, and multimodal systems, token reduction can: (i) facilitate deeper multimodal integration and alignment, (ii) mitigate "overthinking" and hallucinations, (iii) maintain coherence over long inputs, and (iv) enhance training stability, etc. We reframe token reduction as more than an efficiency measure. By doing so, we outline promising future directions, including algorithm design, reinforcement learning-guided token reduction, token optimization for in-context learning, and broader ML and scientific domains. We highlight its potential to drive new model architectures and learning strategies that improve robustness, increase interpretability, and better align with the objectives of generative modeling.

Summary

AI-Generated Summary

PDF143May 29, 2025