LazyLLM:用于高效长上下文LLM推理的动态标记修剪LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
基于Transformer的大型语言模型的推理包括两个连续阶段:1)预填充阶段用于计算提示的KV缓存并生成第一个标记,2)解码阶段用于生成后续标记。对于长提示,必须在预填充阶段为所有标记计算KV缓存,这可能会显著增加生成第一个标记所需的时间。因此,预填充阶段可能成为生成过程中的瓶颈。一个未解决的问题是是否所有提示标记对于生成第一个标记都是必要的。为了回答这个问题,我们引入了一种新方法LazyLLM,该方法有选择地计算在预填充和解码阶段对下一个标记预测重要的标记的KV。与一次性修剪提示的静态修剪方法相反,LazyLLM允许语言模型在不同生成步骤中动态选择来自上下文的不同标记子集,即使它们在先前的步骤中可能已被修剪。对各种任务的标准数据集进行的大量实验表明,LazyLLM是一种通用方法,可以与现有语言模型无缝集成,显著加速生成而无需微调。例如,在多文档问答任务中,LazyLLM将LLama 2 7B模型的预填充阶段加速了2.34倍,同时保持准确性。