L'Hypothèse de la Loterie des LLM, Repenser les Capacités que la Compression des LLM Devrait Préserver ?
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?
February 24, 2025
Auteurs: Zhenheng Tang, Xiang Liu, Qian Wang, Peijie Dong, Bingsheng He, Xiaowen Chu, Bo Li
cs.AI
Résumé
Motivés par la réduction des coûts de calcul et de stockage des LLMs, la compression de modèles et la compression du cache KV ont attiré une attention considérable de la part des chercheurs. Cependant, les méthodes actuelles mettent principalement l'accent sur le maintien des performances des LLMs compressés, mesurées par la perplexité ou la précision simple sur des tâches de questions-réponses de connaissances générales et de raisonnement arithmétique de base. Dans ce blog, nous présentons une brève revue des avancées récentes concernant les LLMs en lien avec la génération augmentée par recherche d'information, le raisonnement multi-étapes, l'utilisation d'outils externes et l'expressivité computationnelle, qui améliorent considérablement les performances des LLMs. Ensuite, nous proposons une hypothèse de "lottery LLM" suggérant que pour un LLM et une tâche donnés, il existe un lottery LLM plus petit capable de produire les mêmes performances que le LLM original avec l'aide d'un raisonnement multi-étapes et d'outils externes. Sur la base de cette revue des progrès actuels dans les LLMs, nous discutons et résumons les capacités essentielles que le lottery LLM et la compression du cache KV doivent posséder, qui sont actuellement négligées dans les méthodes existantes.
English
Motivated by reducing the computational and storage costs of LLMs, model
compression and KV cache compression have attracted much attention from
researchers. However, current methods predominantly emphasize maintaining the
performance of compressed LLMs, as measured by perplexity or simple accuracy on
tasks of common sense knowledge QA and basic arithmetic reasoning. In this
blog, we present a brief review of recent advancements in LLMs related to
retrieval-augmented generation, multi-step reasoning, external tools, and
computational expressivity, all of which substantially enhance LLM performance.
Then, we propose a lottery LLM hypothesis suggesting that for a given LLM and
task, there exists a smaller lottery LLM capable of producing the same
performance as the original LLM with the assistance of multi-step reasoning and
external tools. Based on the review of current progress in LLMs, we discuss and
summarize the essential capabilities that the lottery LLM and KV cache
compression must possess, which are currently overlooked in existing methods.Summary
AI-Generated Summary