ChatPaper.aiChatPaper

Os LLMs Comprimidos Podem Realmente Agir? Uma Avaliação Empírica das Capacidades Agentes na Compressão de LLMs

Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

May 26, 2025
Autores: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li
cs.AI

Resumo

A compressão pós-treinamento reduz os custos computacionais e de memória de grandes modelos de linguagem (LLMs), permitindo uma implantação eficiente em termos de recursos. No entanto, os benchmarks de compressão existentes focam apenas em modelagem de linguagem (por exemplo, perplexidade) e tarefas de compreensão de linguagem natural (por exemplo, precisão no GLUE), ignorando as capacidades agentivas - fluxo de trabalho, uso de ferramentas/chamadas de função, compreensão de contexto longo e aplicação no mundo real. Introduzimos o Agent Compression Benchmark (ACBench), o primeiro benchmark abrangente para avaliar como a compressão impacta as habilidades agentivas dos LLMs. O ACBench abrange (1) 12 tarefas em 4 capacidades (por exemplo, WorfBench para geração de fluxo de trabalho, Needle-in-Haystack para recuperação de contexto longo), (2) quantização (GPTQ, AWQ) e poda (Wanda, SparseGPT), e (3) 15 modelos, incluindo pequenos (Gemma-2B), padrão (Qwen2.5 7B-32B) e LLMs de raciocínio destilados (DeepSeek-R1-Distill). Nossos experimentos revelam tradeoffs de compressão: a quantização de 4 bits preserva a geração de fluxo de trabalho e o uso de ferramentas (queda de 1%-3%), mas degrada a precisão da aplicação no mundo real em 10%-15%. Introduzimos ERank, Correlação de Ranking Top-k e Energia para sistematizar a análise. O ACBench fornece insights acionáveis para otimizar a compressão de LLMs em cenários agentivos. O código pode ser encontrado em https://github.com/pprp/ACBench.
English
Post-training compression reduces the computational and memory costs of large language models (LLMs), enabling resource-efficient deployment. However, existing compression benchmarks only focus on language modeling (e.g., perplexity) and natural language understanding tasks (e.g., GLUE accuracy), ignoring the agentic capabilities - workflow, tool use/function call, long-context understanding and real-world application. We introduce the Agent Compression Benchmark (ACBench), the first comprehensive benchmark for evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1) 12 tasks across 4 capabilities (e.g., WorfBench for workflow generation, Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ) and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B), standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill). Our experiments reveal compression tradeoffs: 4-bit quantization preserves workflow generation and tool use (1%-3% drop) but degrades real-world application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation and Energy to systematize analysis. ACBench provides actionable insights for optimizing LLM compression in agentic scenarios. The code can be found in https://github.com/pprp/ACBench.
PDF51December 4, 2025