每日精選AI研究論文及翻譯
在開放式場景中評估大型語言模型(LLMs)是具有挑戰性的,因為現有的基準和指標無法全面評估它們。為了解決這個問題,我們提出將LLMs微調為可擴展的評審(JudgeLM),以在開放式基準中高效有效地評估LLMs。我們首先提出了一個包含任務種子、LLMs生成答案和GPT-4生成判斷的全面、大規模、高質量數據集,用於微調高性能評審,以及用於評估評審的新基準。我們從7B、13B到33B參數的不同規模訓練JudgeLM,並對其能力和行為進行系統分析。然後,我們分析了將LLM微調為評審時的關鍵偏見,並將其視為位置偏見、知識偏見和格式偏見。為了解決這些問題,JudgeLM引入了一系列技術,包括交換增強、參考支持和參考刪除,明顯提升了評審的性能。JudgeLM在現有的PandaLM基準和我們提出的新基準上獲得了最先進的評審表現。我們的JudgeLM高效,而JudgeLM-7B僅需3分鐘即可使用8個A100 GPU對5K樣本進行評判。JudgeLM與教師評審達成高度一致,達成超過90%的一致性,甚至超過人與人之間的一致性。JudgeLM還展示了作為單一答案、多模型、多答案和多輪對話評審的擴展能力。
我們介紹了 HyperFields,一種用單個前向傳遞(可選進行一些微調)生成文本條件下神經輻射場(NeRFs)的方法。我們方法的關鍵在於:(i)動態超網絡,學習從文本標記嵌入到 NeRFs 空間的平滑映射;(ii)NeRF 蒸餾訓練,將編碼在單個 NeRFs 中的場景蒸餾為一個動態超網絡。這些技術使得單個網絡能夠擬合超過一百個獨特場景。我們進一步展示了 HyperFields 學習了更通用的文本與 NeRFs 之間的映射,因此能夠預測新的分布內和分布外場景,無論是零編碼還是經過一些微調步驟。HyperFields 的微調受益於學習到的通用映射,收斂加速,能夠比現有基於神經優化的方法快 5 到 10 倍合成新場景。我們的消融實驗表明,動態架構和 NeRF 蒸餾對於 HyperFields 的表達能力至關重要。
我們提出了控制解碼(CD),這是一種新穎的離策略強化學習方法,用於控制語言模型的自回歸生成,以實現高獎勵結果。CD通過一個值函數來解決離策略強化學習問題,我們稱之為前綴評分器。前綴評分器在推斷時用於引導生成向著更高獎勵結果。我們展示前綴評分器可以在(可能是)離策略數據上進行訓練,以預測從部分解碼的回應繼續解碼時的預期獎勵。我們在實驗中證明了CD作為Reddit對話語料庫上的控制機制的有效性。我們還展示了CD設計的模塊化使得可以控制多個獎勵,有效解決多目標強化學習問題,而不增加額外的複雜性。最後,我們展示了CD可以在推斷時以一種新穎的塊狀方式應用,同樣不需要進行任何訓練時間的更改,從本質上彌合了流行的最佳K策略和基於標記級別的強化學習之間的差距。這使得CD成為語言模型對齊的一種有前途的方法。
擁有數千億參數的大型語言模型(LLMs)引發了一波新的令人興奮的人工智能應用。然而,在推理時它們需要大量的計算資源。稀疏性是一種自然的方法來降低這種成本,但現有的方法要麼需要昂貴的重新訓練,要麼必須放棄LLM的上下文學習能力,或者在現代硬件上並不能實現牆時鐘時間加速。我們假設上下文稀疏性,即對於給定輸入而言,能夠產生與密集模型近似相同輸出的小型、輸入相關的注意力頭和MLP參數集,可以解決這些問題。我們展示了上下文稀疏性的存在,它可以被準確預測,我們可以利用它來加速LLM的推理過程,而不會影響LLM的質量或上下文學習能力。基於這些見解,我們提出了DejaVu,一個使用低成本算法來根據每一層的輸入動態預測上下文稀疏性的系統,以及一個異步且硬件感知的實現,可以加速LLM的推理。我們驗證DejaVu相對於最先進的FasterTransformer可以將OPT-175B的推理延遲減少超過2倍,相對於廣泛使用的Hugging Face實現可以減少超過6倍,而不會影響模型質量。代碼可在https://github.com/FMInference/DejaVu找到。