Kunnen Gecomprimeerde LLM's Echt Handelen? Een Empirische Evaluatie van Agentische Capaciteiten in LLM-compressie
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
May 26, 2025
Auteurs: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li
cs.AI
Samenvatting
Post-training compressie vermindert de rekenkundige en geheugenkosten van grote
taalmodellen (LLMs), waardoor een resource-efficiënte implementatie mogelijk wordt. Echter,
bestaande compressiebenchmarks richten zich alleen op taalmodeling (bijv.,
perplexiteit) en taken voor natuurlijke taalbegrip (bijv., GLUE-nauwkeurigheid),
en negeren de agentische capaciteiten - workflow, toolgebruik/functieaanroep,
langetermijncontextbegrip en real-world toepassingen. Wij introduceren de Agent
Compression Benchmark (ACBench), de eerste uitgebreide benchmark voor
het evalueren van hoe compressie de agentische vermogens van LLMs beïnvloedt. ACBench omvat (1)
12 taken over 4 capaciteiten (bijv., WorfBench voor workflowgeneratie,
Needle-in-Haystack voor langetermijncontextretrieval), (2) kwantisering (GPTQ, AWQ)
en pruning (Wanda, SparseGPT), en (3) 15 modellen, waaronder kleine (Gemma-2B),
standaard (Qwen2.5 7B-32B), en gedistilleerde redeneer-LLMs (DeepSeek-R1-Distill).
Onze experimenten onthullen compressieafwegingen: 4-bit kwantisering behoudt
workflowgeneratie en toolgebruik (1%-3% daling) maar verslechtert de nauwkeurigheid van real-world
toepassingen met 10%-15%. Wij introduceren ERank, Top-k Ranking Correlation
en Energy om de analyse te systematiseren. ACBench biedt praktische inzichten voor
het optimaliseren van LLM-compressie in agentische scenario's. De code is te vinden op
https://github.com/pprp/ACBench.
English
Post-training compression reduces the computational and memory costs of large
language models (LLMs), enabling resource-efficient deployment. However,
existing compression benchmarks only focus on language modeling (e.g.,
perplexity) and natural language understanding tasks (e.g., GLUE accuracy),
ignoring the agentic capabilities - workflow, tool use/function call,
long-context understanding and real-world application. We introduce the Agent
Compression Benchmark (ACBench), the first comprehensive benchmark for
evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1)
12 tasks across 4 capabilities (e.g., WorfBench for workflow generation,
Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ)
and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B),
standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill).
Our experiments reveal compression tradeoffs: 4-bit quantization preserves
workflow generation and tool use (1%-3% drop) but degrades real-world
application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation
and Energy to systematize analysis. ACBench provides actionable insights for
optimizing LLM compression in agentic scenarios. The code can be found in
https://github.com/pprp/ACBench.