ChatPaper.aiChatPaper

A Redução de Tokens Deve Ir Além da Eficiência em Modelos Gerativos -- Da Visão e Linguagem à Multimodalidade

Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality

May 23, 2025
Autores: Zhenglun Kong, Yize Li, Fanhu Zeng, Lei Xin, Shvat Messica, Xue Lin, Pu Zhao, Manolis Kellis, Hao Tang, Marinka Zitnik
cs.AI

Resumo

Nas arquiteturas Transformer, tokens — unidades discretas derivadas de dados brutos — são formados segmentando as entradas em blocos de comprimento fixo. Cada token é então mapeado para um embedding, permitindo cálculos de atenção paralelos enquanto preserva as informações essenciais da entrada. Devido à complexidade computacional quadrática dos mecanismos de auto-atenção dos Transformers, a redução de tokens tem sido usada principalmente como uma estratégia de eficiência. Isso é especialmente verdadeiro nos domínios de visão única e linguagem, onde ajuda a equilibrar custos computacionais, uso de memória e latência de inferência. Apesar desses avanços, este artigo argumenta que a redução de tokens deve transcender seu papel tradicional voltado para eficiência na era dos grandes modelos generativos. Em vez disso, a posicionamos como um princípio fundamental na modelagem generativa, influenciando criticamente tanto a arquitetura do modelo quanto aplicações mais amplas. Especificamente, defendemos que, em sistemas de visão, linguagem e multimodais, a redução de tokens pode: (i) facilitar uma integração e alinhamento multimodal mais profundos, (ii) mitigar o "pensamento excessivo" e alucinações, (iii) manter a coerência em entradas longas e (iv) melhorar a estabilidade do treinamento, entre outros benefícios. Reenquadramos a redução de tokens como mais do que uma medida de eficiência. Ao fazer isso, delineamos direções futuras promissoras, incluindo o design de algoritmos, redução de tokens guiada por aprendizado por reforço, otimização de tokens para aprendizado em contexto e domínios mais amplos de ML e ciência. Destacamos seu potencial para impulsionar novas arquiteturas de modelo e estratégias de aprendizado que melhoram a robustez, aumentam a interpretabilidade e se alinham melhor com os objetivos da modelagem generativa.
English
In Transformer architectures, tokens\textemdash discrete units derived from raw data\textemdash are formed by segmenting inputs into fixed-length chunks. Each token is then mapped to an embedding, enabling parallel attention computations while preserving the input's essential information. Due to the quadratic computational complexity of transformer self-attention mechanisms, token reduction has primarily been used as an efficiency strategy. This is especially true in single vision and language domains, where it helps balance computational costs, memory usage, and inference latency. Despite these advances, this paper argues that token reduction should transcend its traditional efficiency-oriented role in the era of large generative models. Instead, we position it as a fundamental principle in generative modeling, critically influencing both model architecture and broader applications. Specifically, we contend that across vision, language, and multimodal systems, token reduction can: (i) facilitate deeper multimodal integration and alignment, (ii) mitigate "overthinking" and hallucinations, (iii) maintain coherence over long inputs, and (iv) enhance training stability, etc. We reframe token reduction as more than an efficiency measure. By doing so, we outline promising future directions, including algorithm design, reinforcement learning-guided token reduction, token optimization for in-context learning, and broader ML and scientific domains. We highlight its potential to drive new model architectures and learning strategies that improve robustness, increase interpretability, and better align with the objectives of generative modeling.
PDF143May 29, 2025