¿Pueden los LLM comprimidos realmente actuar? Una evaluación empírica de las capacidades agentivas en la compresión de LLM
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
May 26, 2025
Autores: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li
cs.AI
Resumen
La compresión post-entrenamiento reduce los costos computacionales y de memoria de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), permitiendo un despliegue eficiente de recursos. Sin embargo, los benchmarks de compresión existentes se centran únicamente en el modelado del lenguaje (por ejemplo, la perplejidad) y en tareas de comprensión del lenguaje natural (por ejemplo, la precisión en GLUE), ignorando las capacidades agentivas: flujos de trabajo, uso de herramientas/llamadas a funciones, comprensión de contextos largos y aplicaciones en el mundo real. Presentamos el Benchmark de Compresión Agéntica (ACBench), el primer benchmark integral para evaluar cómo la compresión afecta las habilidades agentivas de los LLMs. ACBench abarca (1) 12 tareas distribuidas en 4 capacidades (por ejemplo, WorfBench para la generación de flujos de trabajo, Needle-in-Haystack para la recuperación en contextos largos), (2) cuantización (GPTQ, AWQ) y poda (Wanda, SparseGPT), y (3) 15 modelos, incluyendo LLMs pequeños (Gemma-2B), estándar (Qwen2.5 7B-32B) y de razonamiento destilado (DeepSeek-R1-Distill). Nuestros experimentos revelan compensaciones en la compresión: la cuantización de 4 bits preserva la generación de flujos de trabajo y el uso de herramientas (caída del 1%-3%), pero degrada la precisión en aplicaciones del mundo real en un 10%-15%. Introducimos ERank, Correlación de Ranking Top-k y Energía para sistematizar el análisis. ACBench proporciona insights prácticos para optimizar la compresión de LLMs en escenarios agentivos. El código se puede encontrar en https://github.com/pprp/ACBench.
English
Post-training compression reduces the computational and memory costs of large
language models (LLMs), enabling resource-efficient deployment. However,
existing compression benchmarks only focus on language modeling (e.g.,
perplexity) and natural language understanding tasks (e.g., GLUE accuracy),
ignoring the agentic capabilities - workflow, tool use/function call,
long-context understanding and real-world application. We introduce the Agent
Compression Benchmark (ACBench), the first comprehensive benchmark for
evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1)
12 tasks across 4 capabilities (e.g., WorfBench for workflow generation,
Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ)
and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B),
standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill).
Our experiments reveal compression tradeoffs: 4-bit quantization preserves
workflow generation and tool use (1%-3% drop) but degrades real-world
application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation
and Energy to systematize analysis. ACBench provides actionable insights for
optimizing LLM compression in agentic scenarios. The code can be found in
https://github.com/pprp/ACBench.Summary
AI-Generated Summary