Могут ли сжатые языковые модели действительно действовать? Эмпирическая оценка агентских возможностей при сжатии языковых моделей

Аннотация

Посттренировочное сжатие снижает вычислительные и затраты на память для больших языковых моделей (LLM), обеспечивая ресурсоэффективное развертывание. Однако существующие бенчмарки сжатия сосредоточены только на языковом моделировании (например, перплексия) и задачах понимания естественного языка (например, точность GLUE), игнорируя агентские возможности — рабочие процессы, использование инструментов/вызов функций, понимание длинного контекста и реальные приложения. Мы представляем бенчмарк Agent Compression Benchmark (ACBench), первый всеобъемлющий бенчмарк для оценки влияния сжатия на агентские способности LLM. ACBench охватывает (1) 12 задач по 4 направлениям (например, WorfBench для генерации рабочих процессов, Needle-in-Haystack для поиска в длинном контексте), (2) квантование (GPTQ, AWQ) и прореживание (Wanda, SparseGPT), а также (3) 15 моделей, включая малые (Gemma-2B), стандартные (Qwen2.5 7B-32B) и дистиллированные модели для рассуждений (DeepSeek-R1-Distill). Наши эксперименты выявляют компромиссы сжатия: 4-битное квантование сохраняет генерацию рабочих процессов и использование инструментов (падение на 1%-3%), но снижает точность в реальных приложениях на 10%-15%. Мы вводим ERank, корреляцию ранжирования Top-k и энергию для систематизации анализа. ACBench предоставляет практические рекомендации для оптимизации сжатия LLM в агентских сценариях. Код доступен по адресу https://github.com/pprp/ACBench.

English

Post-training compression reduces the computational and memory costs of large language models (LLMs), enabling resource-efficient deployment. However, existing compression benchmarks only focus on language modeling (e.g., perplexity) and natural language understanding tasks (e.g., GLUE accuracy), ignoring the agentic capabilities - workflow, tool use/function call, long-context understanding and real-world application. We introduce the Agent Compression Benchmark (ACBench), the first comprehensive benchmark for evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1) 12 tasks across 4 capabilities (e.g., WorfBench for workflow generation, Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ) and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B), standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill). Our experiments reveal compression tradeoffs: 4-bit quantization preserves workflow generation and tool use (1%-3% drop) but degrades real-world application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation and Energy to systematize analysis. ACBench provides actionable insights for optimizing LLM compression in agentic scenarios. The code can be found in https://github.com/pprp/ACBench.

Могут ли сжатые языковые модели действительно действовать? Эмпирическая оценка агентских возможностей при сжатии языковых моделей

Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

Аннотация

Support