I Compressed LLM Possono Veramente Agire? Una Valutazione Empirica delle Capacità Agenti nella Compressione dei LLM
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
May 26, 2025
Autori: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li
cs.AI
Abstract
La compressione post-addestramento riduce i costi computazionali e di memoria dei grandi modelli linguistici (LLM), consentendo un dispiegamento efficiente delle risorse. Tuttavia, i benchmark di compressione esistenti si concentrano solo sulla modellazione del linguaggio (ad esempio, la perplessità) e sui compiti di comprensione del linguaggio naturale (ad esempio, l'accuratezza su GLUE), ignorando le capacità agentiche - flusso di lavoro, uso di strumenti/chiamate di funzione, comprensione del contesto lungo e applicazione nel mondo reale. Introduciamo l'Agent Compression Benchmark (ACBench), il primo benchmark completo per valutare come la compressione influisce sulle capacità agentiche degli LLM. ACBench copre (1) 12 compiti in 4 capacità (ad esempio, WorfBench per la generazione del flusso di lavoro, Needle-in-Haystack per il recupero del contesto lungo), (2) quantizzazione (GPTQ, AWQ) e pruning (Wanda, SparseGPT), e (3) 15 modelli, inclusi LLM piccoli (Gemma-2B), standard (Qwen2.5 7B-32B) e distillati per il ragionamento (DeepSeek-R1-Distill). I nostri esperimenti rivelano compromessi nella compressione: la quantizzazione a 4 bit preserva la generazione del flusso di lavoro e l'uso di strumenti (calo dell'1%-3%) ma degrada l'accuratezza dell'applicazione nel mondo reale del 10%-15%. Introduciamo ERank, Top-k Ranking Correlation e Energy per sistematizzare l'analisi. ACBench fornisce intuizioni pratiche per ottimizzare la compressione degli LLM in scenari agentici. Il codice è disponibile su https://github.com/pprp/ACBench.
English
Post-training compression reduces the computational and memory costs of large
language models (LLMs), enabling resource-efficient deployment. However,
existing compression benchmarks only focus on language modeling (e.g.,
perplexity) and natural language understanding tasks (e.g., GLUE accuracy),
ignoring the agentic capabilities - workflow, tool use/function call,
long-context understanding and real-world application. We introduce the Agent
Compression Benchmark (ACBench), the first comprehensive benchmark for
evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1)
12 tasks across 4 capabilities (e.g., WorfBench for workflow generation,
Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ)
and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B),
standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill).
Our experiments reveal compression tradeoffs: 4-bit quantization preserves
workflow generation and tool use (1%-3% drop) but degrades real-world
application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation
and Energy to systematize analysis. ACBench provides actionable insights for
optimizing LLM compression in agentic scenarios. The code can be found in
https://github.com/pprp/ACBench.