Les LLM compressés peuvent-ils vraiment agir ? Une évaluation empirique des capacités agentielles dans la compression des LLM
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
May 26, 2025
Auteurs: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li
cs.AI
Résumé
La compression post-entraînement réduit les coûts de calcul et de mémoire des grands modèles de langage (LLM), permettant un déploiement efficace des ressources. Cependant, les benchmarks de compression existants se concentrent uniquement sur la modélisation du langage (par exemple, la perplexité) et les tâches de compréhension du langage naturel (par exemple, la précision GLUE), ignorant les capacités agentiques - flux de travail, utilisation d'outils/appels de fonction, compréhension de contexte long et application dans le monde réel. Nous introduisons le benchmark de compression agentique (ACBench), le premier benchmark complet pour évaluer l'impact de la compression sur les capacités agentiques des LLM. ACBench couvre (1) 12 tâches réparties sur 4 capacités (par exemple, WorfBench pour la génération de flux de travail, Needle-in-Haystack pour la récupération de contexte long), (2) la quantification (GPTQ, AWQ) et l'élagage (Wanda, SparseGPT), et (3) 15 modèles, incluant des LLM petits (Gemma-2B), standards (Qwen2.5 7B-32B) et de raisonnement distillé (DeepSeek-R1-Distill). Nos expériences révèlent des compromis de compression : la quantification en 4 bits préserve la génération de flux de travail et l'utilisation d'outils (baisse de 1%-3%) mais dégrade la précision des applications réelles de 10%-15%. Nous introduisons ERank, la corrélation de classement Top-k et l'énergie pour systématiser l'analyse. ACBench fournit des insights actionnables pour optimiser la compression des LLM dans des scénarios agentiques. Le code est disponible sur https://github.com/pprp/ACBench.
English
Post-training compression reduces the computational and memory costs of large
language models (LLMs), enabling resource-efficient deployment. However,
existing compression benchmarks only focus on language modeling (e.g.,
perplexity) and natural language understanding tasks (e.g., GLUE accuracy),
ignoring the agentic capabilities - workflow, tool use/function call,
long-context understanding and real-world application. We introduce the Agent
Compression Benchmark (ACBench), the first comprehensive benchmark for
evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1)
12 tasks across 4 capabilities (e.g., WorfBench for workflow generation,
Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ)
and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B),
standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill).
Our experiments reveal compression tradeoffs: 4-bit quantization preserves
workflow generation and tool use (1%-3% drop) but degrades real-world
application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation
and Energy to systematize analysis. ACBench provides actionable insights for
optimizing LLM compression in agentic scenarios. The code can be found in
https://github.com/pprp/ACBench.Summary
AI-Generated Summary