A Hipótese da Loteria LLM, Repensando Quais Habilidades a Compressão de LLM Deve Preservar?
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?
February 24, 2025
Autores: Zhenheng Tang, Xiang Liu, Qian Wang, Peijie Dong, Bingsheng He, Xiaowen Chu, Bo Li
cs.AI
Resumo
Motivados pela redução dos custos computacionais e de armazenamento dos LLMs, a compressão de modelos e a compressão do cache KV têm atraído muita atenção dos pesquisadores. No entanto, os métodos atuais enfatizam predominantemente a manutenção do desempenho dos LLMs comprimidos, medido por perplexidade ou precisão simples em tarefas de questionamento de conhecimento de senso comum e raciocínio aritmético básico. Neste blog, apresentamos uma breve revisão dos avanços recentes em LLMs relacionados à geração aumentada por recuperação, raciocínio em múltiplas etapas, ferramentas externas e expressividade computacional, todos os quais aprimoram substancialmente o desempenho dos LLMs. Em seguida, propomos uma hipótese de LLM loteria, sugerindo que, para um determinado LLM e tarefa, existe um LLM loteria menor capaz de produzir o mesmo desempenho do LLM original com a assistência de raciocínio em múltiplas etapas e ferramentas externas. Com base na revisão do progresso atual em LLMs, discutimos e resumimos as capacidades essenciais que o LLM loteria e a compressão do cache KV devem possuir, as quais são atualmente negligenciadas nos métodos existentes.
English
Motivated by reducing the computational and storage costs of LLMs, model
compression and KV cache compression have attracted much attention from
researchers. However, current methods predominantly emphasize maintaining the
performance of compressed LLMs, as measured by perplexity or simple accuracy on
tasks of common sense knowledge QA and basic arithmetic reasoning. In this
blog, we present a brief review of recent advancements in LLMs related to
retrieval-augmented generation, multi-step reasoning, external tools, and
computational expressivity, all of which substantially enhance LLM performance.
Then, we propose a lottery LLM hypothesis suggesting that for a given LLM and
task, there exists a smaller lottery LLM capable of producing the same
performance as the original LLM with the assistance of multi-step reasoning and
external tools. Based on the review of current progress in LLMs, we discuss and
summarize the essential capabilities that the lottery LLM and KV cache
compression must possess, which are currently overlooked in existing methods.Summary
AI-Generated Summary