Können komprimierte LLMs wirklich handeln? Eine empirische Bewertung der agentenbasierten Fähigkeiten in der LLM-Kompression
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
May 26, 2025
Autoren: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li
cs.AI
Zusammenfassung
Die Nachschulungskompression reduziert die Rechen- und Speicherkosten großer Sprachmodelle (LLMs) und ermöglicht eine ressourceneffiziente Bereitstellung. Bisher konzentrieren sich bestehende Kompressionsbenchmarks jedoch nur auf Sprachmodellierung (z. B. Perplexität) und Aufgaben des natürlichen Sprachverständnisses (z. B. GLUE-Genauigkeit) und ignorieren dabei die agentenbasierten Fähigkeiten – Workflow, Werkzeugnutzung/Funktionsaufruf, Langzeitkontextverständnis und reale Anwendungen. Wir stellen den Agent Compression Benchmark (ACBench) vor, den ersten umfassenden Benchmark zur Bewertung, wie sich die Kompression auf die agentenbasierten Fähigkeiten von LLMs auswirkt. ACBench umfasst (1) 12 Aufgaben über 4 Fähigkeiten hinweg (z. B. WorfBench für Workflow-Generierung, Needle-in-Haystack für Langzeitkontextabruf), (2) Quantisierung (GPTQ, AWQ) und Pruning (Wanda, SparseGPT) sowie (3) 15 Modelle, darunter kleine (Gemma-2B), Standard- (Qwen2.5 7B-32B) und destillierte Reasoning-LLMs (DeepSeek-R1-Distill). Unsere Experimente zeigen Kompromisse bei der Kompression: 4-Bit-Quantisierung bewahrt die Workflow-Generierung und Werkzeugnutzung (1%-3% Rückgang), verschlechtert jedoch die Genauigkeit bei realen Anwendungen um 10%-15%. Wir führen ERank, Top-k-Ranking-Korrelation und Energie ein, um die Analyse zu systematisieren. ACBench bietet umsetzbare Erkenntnisse zur Optimierung der LLM-Kompression in agentenbasierten Szenarien. Der Code ist unter https://github.com/pprp/ACBench verfügbar.
English
Post-training compression reduces the computational and memory costs of large
language models (LLMs), enabling resource-efficient deployment. However,
existing compression benchmarks only focus on language modeling (e.g.,
perplexity) and natural language understanding tasks (e.g., GLUE accuracy),
ignoring the agentic capabilities - workflow, tool use/function call,
long-context understanding and real-world application. We introduce the Agent
Compression Benchmark (ACBench), the first comprehensive benchmark for
evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1)
12 tasks across 4 capabilities (e.g., WorfBench for workflow generation,
Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ)
and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B),
standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill).
Our experiments reveal compression tradeoffs: 4-bit quantization preserves
workflow generation and tool use (1%-3% drop) but degrades real-world
application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation
and Energy to systematize analysis. ACBench provides actionable insights for
optimizing LLM compression in agentic scenarios. The code can be found in
https://github.com/pprp/ACBench.Summary
AI-Generated Summary