La Hipótesis de la Lotería del LLM: ¿Replanteando qué habilidades debería preservar la compresión de los Modelos de Lenguaje Grande?

Resumen

Motivados por la reducción de los costos computacionales y de almacenamiento de los LLM, la compresión de modelos y la compresión de la caché KV han atraído mucha atención por parte de los investigadores. Sin embargo, los métodos actuales se centran predominantemente en mantener el rendimiento de los LLM comprimidos, medido a través de la perplejidad o la precisión simple en tareas de preguntas y respuestas sobre conocimiento de sentido común y razonamiento aritmético básico. En este blog, presentamos una breve revisión de los avances recientes en LLM relacionados con la generación aumentada por recuperación, el razonamiento de múltiples pasos, las herramientas externas y la expresividad computacional, todos los cuales mejoran sustancialmente el rendimiento de los LLM. Luego, proponemos una hipótesis de lotería LLM que sugiere que, para un LLM y una tarea dados, existe un LLM de lotería más pequeño capaz de producir el mismo rendimiento que el LLM original con la ayuda del razonamiento de múltiples pasos y herramientas externas. Basándonos en la revisión del progreso actual en LLM, discutimos y resumimos las capacidades esenciales que el LLM de lotería y la compresión de la caché KV deben poseer, las cuales actualmente se pasan por alto en los métodos existentes.

English

Motivated by reducing the computational and storage costs of LLMs, model compression and KV cache compression have attracted much attention from researchers. However, current methods predominantly emphasize maintaining the performance of compressed LLMs, as measured by perplexity or simple accuracy on tasks of common sense knowledge QA and basic arithmetic reasoning. In this blog, we present a brief review of recent advancements in LLMs related to retrieval-augmented generation, multi-step reasoning, external tools, and computational expressivity, all of which substantially enhance LLM performance. Then, we propose a lottery LLM hypothesis suggesting that for a given LLM and task, there exists a smaller lottery LLM capable of producing the same performance as the original LLM with the assistance of multi-step reasoning and external tools. Based on the review of current progress in LLMs, we discuss and summarize the essential capabilities that the lottery LLM and KV cache compression must possess, which are currently overlooked in existing methods.

La Hipótesis de la Lotería del LLM: ¿Replanteando qué habilidades debería preservar la compresión de los Modelos de Lenguaje Grande?

The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?

Resumen

Support