边缘写作:长上下文检索的更好推理模式Writing in the Margins: Better Inference Pattern for Long Context
Retrieval
本文介绍了边缘书写(WiM),这是一种为大型语言模型设计的新推理模式,旨在优化检索导向任务中长输入序列的处理。该方法利用分块预填充的键-值缓存来执行分段推理,从而实现对广泛上下文的高效处理,同时生成和分类中间信息(“边缘”),以引导模型朝向特定任务。这种方法在略微增加计算开销的同时,显著提升了现成模型的性能,无需进行微调。具体来说,我们观察到WiM对推理技能(HotpotQA,MultiHop-RAG)的准确性平均提升了7.5%,对聚合任务(CWE)的F1分数提升超过30.0%。此外,我们展示了所提出的模式如何融入交互式检索设计,为最终用户提供有关上下文处理进展的持续更新,并准确定位相关信息集成到最终响应中。我们在https://github.com/writer/writing-in-the-margins 上发布了WiM的实现,使用了Hugging Face Transformers库。