Verlagerung der KI-Effizienz von der modellzentrierten zur datenzentrierten Kompression
Shifting AI Efficiency From Model-Centric to Data-Centric Compression
May 25, 2025
Autoren: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung von großen Sprachmodellen (LLMs) und multimodalen LLMs (MLLMs) hat historisch auf einer modellzentrierten Skalierung basiert, bei der die Parameteranzahl von Millionen auf Hunderte von Milliarden erhöht wurde, um Leistungssteigerungen zu erzielen. Da wir jedoch die hardwarebedingten Grenzen der Modellgröße erreichen, hat sich der dominierende Rechenengpass grundlegend auf die quadratischen Kosten der Selbstaufmerksamkeit über lange Token-Sequenzen verlagert, die nun durch ultra-lange Textkontexte, hochauflösende Bilder und längere Videos angetrieben werden. In diesem Positionspapier argumentieren wir, dass sich der Forschungsschwerpunkt für effiziente KI von der modellzentrierten Kompression zur datenzentrierten Kompression verschiebt. Wir positionieren die Token-Kompression als neue Grenze, die die KI-Effizienz durch die Reduzierung der Token-Anzahl während des Modelltrainings oder der Inferenz verbessert. Durch eine umfassende Analyse untersuchen wir zunächst die jüngsten Entwicklungen in der KI mit langen Kontexten in verschiedenen Domänen und etablieren einen einheitlichen mathematischen Rahmen für bestehende Strategien zur Modell-Effizienz, um zu demonstrieren, warum die Token-Kompression einen entscheidenden Paradigmenwechsel bei der Bewältigung der Overhead-Kosten langer Kontexte darstellt. Anschließend überprüfen wir systematisch die Forschungslandschaft der Token-Kompression, analysieren ihre grundlegenden Vorteile und identifizieren ihre überzeugenden Vorzüge in verschiedenen Szenarien. Darüber hinaus bieten wir eine detaillierte Analyse der aktuellen Herausforderungen in der Token-Kompressionsforschung und skizzieren vielversprechende zukünftige Richtungen. Letztlich zielt unsere Arbeit darauf ab, eine neue Perspektive auf die KI-Effizienz zu bieten, bestehende Forschung zu synthetisieren und innovative Entwicklungen zu katalysieren, um die Herausforderungen zu bewältigen, die zunehmende Kontextlängen für den Fortschritt der KI-Gemeinschaft darstellen.
English
The rapid advancement of large language models (LLMs) and multi-modal LLMs
(MLLMs) has historically relied on model-centric scaling through increasing
parameter counts from millions to hundreds of billions to drive performance
gains. However, as we approach hardware limits on model size, the dominant
computational bottleneck has fundamentally shifted to the quadratic cost of
self-attention over long token sequences, now driven by ultra-long text
contexts, high-resolution images, and extended videos. In this position paper,
we argue that the focus of research for efficient AI is shifting from
model-centric compression to data-centric compression. We position token
compression as the new frontier, which improves AI efficiency via reducing the
number of tokens during model training or inference. Through comprehensive
analysis, we first examine recent developments in long-context AI across
various domains and establish a unified mathematical framework for existing
model efficiency strategies, demonstrating why token compression represents a
crucial paradigm shift in addressing long-context overhead. Subsequently, we
systematically review the research landscape of token compression, analyzing
its fundamental benefits and identifying its compelling advantages across
diverse scenarios. Furthermore, we provide an in-depth analysis of current
challenges in token compression research and outline promising future
directions. Ultimately, our work aims to offer a fresh perspective on AI
efficiency, synthesize existing research, and catalyze innovative developments
to address the challenges that increasing context lengths pose to the AI
community's advancement.Summary
AI-Generated Summary