L'Hypothèse de la Loterie des LLM, Repenser les Capacités que la Compression des LLM Devrait Préserver ?

papers.abstract

Motivés par la réduction des coûts de calcul et de stockage des LLMs, la compression de modèles et la compression du cache KV ont attiré une attention considérable de la part des chercheurs. Cependant, les méthodes actuelles mettent principalement l'accent sur le maintien des performances des LLMs compressés, mesurées par la perplexité ou la précision simple sur des tâches de questions-réponses de connaissances générales et de raisonnement arithmétique de base. Dans ce blog, nous présentons une brève revue des avancées récentes concernant les LLMs en lien avec la génération augmentée par recherche d'information, le raisonnement multi-étapes, l'utilisation d'outils externes et l'expressivité computationnelle, qui améliorent considérablement les performances des LLMs. Ensuite, nous proposons une hypothèse de "lottery LLM" suggérant que pour un LLM et une tâche donnés, il existe un lottery LLM plus petit capable de produire les mêmes performances que le LLM original avec l'aide d'un raisonnement multi-étapes et d'outils externes. Sur la base de cette revue des progrès actuels dans les LLMs, nous discutons et résumons les capacités essentielles que le lottery LLM et la compression du cache KV doivent posséder, qui sont actuellement négligées dans les méthodes existantes.

English

Motivated by reducing the computational and storage costs of LLMs, model compression and KV cache compression have attracted much attention from researchers. However, current methods predominantly emphasize maintaining the performance of compressed LLMs, as measured by perplexity or simple accuracy on tasks of common sense knowledge QA and basic arithmetic reasoning. In this blog, we present a brief review of recent advancements in LLMs related to retrieval-augmented generation, multi-step reasoning, external tools, and computational expressivity, all of which substantially enhance LLM performance. Then, we propose a lottery LLM hypothesis suggesting that for a given LLM and task, there exists a smaller lottery LLM capable of producing the same performance as the original LLM with the assistance of multi-step reasoning and external tools. Based on the review of current progress in LLMs, we discuss and summarize the essential capabilities that the lottery LLM and KV cache compression must possess, which are currently overlooked in existing methods.

L'Hypothèse de la Loterie des LLM, Repenser les Capacités que la Compression des LLM Devrait Préserver ?

The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?

papers.abstract

Support