邊緣寫作:長文本檢索的更佳推論模式Writing in the Margins: Better Inference Pattern for Long Context
Retrieval
本文介紹了邊緣書寫(Writing in the Margins,WiM),這是一種針對大型語言模型設計的新推論模式,旨在優化處理檢索導向任務中的長輸入序列。該方法利用分塊預填充的鍵-值緩存來執行分段式推論,從而實現對廣泛上下文的高效處理,並生成和分類中間信息(“邊緣”),引導模型朝向特定任務。此方法在略微增加計算開銷的同時,顯著提高了現成模型的性能,而無需進行微調。具體而言,我們觀察到WiM平均提高了7.5%的推理技能準確性(HotpotQA,MultiHop-RAG),以及聚合任務(CWE)的F1分數增加超過30.0%。此外,我們展示了所提出的模式如何適應互動式檢索設計,為最終用戶提供有關上下文處理進度的持續更新,並准確指出相關信息如何整合到最終回應中。我們在https://github.com/writer/writing-in-the-margins 上使用Hugging Face Transformers庫釋出了WiM的實現。