압축된 LLM이 진정으로 행동할 수 있는가? LLM 압축에서의 에이전트 능력에 대한 실증적 평가
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression
May 26, 2025
저자: Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li
cs.AI
초록
사후 학습 압축(post-training compression)은 대규모 언어 모델(LLM)의 계산 및 메모리 비용을 줄여 자원 효율적인 배포를 가능하게 합니다. 그러나 기존의 압축 벤치마크는 언어 모델링(예: 복잡도)과 자연어 이해 작업(예: GLUE 정확도)에만 초점을 맞추고, 에이전트 능력(workflow, 도구 사용/함수 호출, 장문 맥락 이해 및 실제 응용)을 간과하고 있습니다. 우리는 에이전트 압축 벤치마크(ACBench)를 도입하여, 압축이 LLM의 에이전트 능력에 미치는 영향을 평가하는 최초의 포괄적인 벤치마크를 제시합니다. ACBench는 (1) 4가지 능력에 걸친 12개 작업(예: WorfBench - 워크플로 생성, Needle-in-Haystack - 장문 맥락 검색), (2) 양자화(GPTQ, AWQ) 및 가지치기(Wanda, SparseGPT), 그리고 (3) 소형(Gemma-2B), 표준(Qwen2.5 7B-32B), 추론 증류 LLM(DeepSeek-R1-Distill)을 포함한 15개 모델을 다룹니다. 우리의 실험은 압축의 트레이드오프를 보여줍니다: 4비트 양자화는 워크플로 생성과 도구 사용을 보존하지만(1%-3% 하락), 실제 응용 정확도는 10%-15% 저하됩니다. 우리는 ERank, Top-k 순위 상관관계 및 에너지를 도입하여 분석을 체계화합니다. ACBench는 에이전트 시나리오에서 LLM 압축을 최적화하기 위한 실행 가능한 통찰을 제공합니다. 코드는 https://github.com/pprp/ACBench에서 확인할 수 있습니다.
English
Post-training compression reduces the computational and memory costs of large
language models (LLMs), enabling resource-efficient deployment. However,
existing compression benchmarks only focus on language modeling (e.g.,
perplexity) and natural language understanding tasks (e.g., GLUE accuracy),
ignoring the agentic capabilities - workflow, tool use/function call,
long-context understanding and real-world application. We introduce the Agent
Compression Benchmark (ACBench), the first comprehensive benchmark for
evaluating how compression impacts LLMs' agentic abilities. ACBench spans (1)
12 tasks across 4 capabilities (e.g., WorfBench for workflow generation,
Needle-in-Haystack for long-context retrieval), (2) quantization (GPTQ, AWQ)
and pruning (Wanda, SparseGPT), and (3) 15 models, including small (Gemma-2B),
standard (Qwen2.5 7B-32B), and distilled reasoning LLMs (DeepSeek-R1-Distill).
Our experiments reveal compression tradeoffs: 4-bit quantization preserves
workflow generation and tool use (1%-3% drop) but degrades real-world
application accuracy by 10%-15%. We introduce ERank, Top-k Ranking Correlation
and Energy to systematize analysis. ACBench provides actionable insights for
optimizing LLM compression in agentic scenarios. The code can be found in
https://github.com/pprp/ACBench.Summary
AI-Generated Summary