每日精選AI研究論文及翻譯
近年來,大型語言模型(LLMs)的快速發展備受矚目。儘管在許多語言理解任務中具有強大能力,但龐大的計算負擔往往限制了LLMs的應用,尤其是當需要將它們部署到邊緣設備時。本文提出了一種量化感知低秩適應(QA-LoRA)算法。動機在於量化和適應的自由度不平衡,解決方案是使用分組運算符,這些運算符增加了量化的自由度,同時減少了適應的自由度。QA-LoRA 可以輕鬆實現,只需幾行代碼,它為原始 LoRA 裝備了雙重能力:(i)在微調期間,LLM 的權重被量化(例如,轉換為 INT4)以減少時間和內存使用;(ii)微調後,LLM 和輔助權重被自然地集成到一個量化模型中,而不會損失準確性。我們將 QA-LoRA 應用於 LLaMA 和 LLaMA2 模型系列,並驗證了其在不同微調數據集和下游場景中的有效性。代碼將在 https://github.com/yuhuixu1993/qa-lora 提供。
本研究旨在通過利用預訓練的文本到圖像(T2I)模型作為基礎,學習一個高質量的文本到視頻(T2V)生成模型。在同時實現視覺逼真和時間上連貫的視頻合成以及保留預訓練T2I模型強大的創造性生成能力的過程中,這是一個極具吸引力但具有挑戰性的任務。為此,我們提出了LaVie,一個集成的視頻生成框架,它基於級聯視頻潛在擴散模型,包括基礎T2V模型、時間插值模型和視頻超分辨率模型。我們的關鍵見解有兩個方面:1)我們發現,將簡單的時間自注意力與旋轉位置編碼相結合,能夠充分捕捉視頻數據中固有的時間相關性。2)此外,我們驗證了聯合圖像-視頻微調過程在產生高質量和具有創意的結果中發揮了關鍵作用。為了增強LaVie的性能,我們貢獻了一個名為Vimeo25M的全面多樣的視頻數據集,其中包含2500萬個文本-視頻對,注重質量、多樣性和美感。大量實驗表明,LaVie在定量和定性上均實現了最先進的性能。此外,我們展示了預訓練LaVie模型在各種長視頻生成和個性化視頻合成應用中的多功能性。
在典型基於Transformer的大型語言模型(LLM)中,計算可以通過批次大小、隱藏維度、層數和序列長度來描述。到目前為止,用於加速LLM訓練的系統工作主要集中在前三個維度上:批次大小的數據並行性、隱藏大小的張量並行性以及模型深度或層數的流水線並行性。這些廣泛研究的並行形式並不針對或優化長序列Transformer模型。考慮到長序列LLM的實際應用需求,人們開始重新關注序列並行性。然而,現有的序列並行性工作受到內存通信效率低下的限制,限制了它們對長序列大型模型的可擴展性。在本工作中,我們介紹了DeepSpeed-Ulysses,這是一種新穎、可攜帶且有效的方法,可以實現高效率和可擴展的LLM訓練,並支持極長的序列長度。DeepSpeed-Ulysses的核心是沿著序列維度對輸入數據進行分區,並使用高效的全對全集體通信進行注意力計算。理論通信分析顯示,與其他方法隨著序列長度增加而產生通信開銷不同,DeepSpeed-Ulysses在序列長度和計算設備成比例增加時,保持恆定的通信量。此外,實驗評估顯示,DeepSpeed-Ulysses比現有方法SOTA基準訓練速度快2.5倍,序列長度長4倍。
近年來深度學習方法的進步,如LLMs和擴散模型,已經創造了對改進量化方法的需求,以滿足這些現代架構的計算需求,同時保持準確性。為了達到這個目標,我們研究了FP8數據格式在75種獨特的網絡架構上的優勢,涵蓋了廣泛的任務,包括機器翻譯、語言建模、文本生成、圖像分類、生成和分割。我們檢驗了三種不同的FP8表示(E5M2、E4M3和E3M4),以研究在模型準確性上在動態範圍和精度之間不同程度的權衡對效果的影響。根據我們的廣泛研究,我們開發了一個可以應用於不同網絡架構的量化工作流程。我們的實證結果顯示,FP8格式在多個方面優於INT8,包括工作負載覆蓋率(92.64% vs. 65.87%)、模型準確性和適用於更廣泛操作的性能。此外,我們的研究結果表明,E4M3更適合NLP模型,而E3M4在計算機視覺任務上比E4M3稍微更好。代碼可在Intel神經壓縮器的GitHub頁面上公開獲取:https://github.com/intel/neural-compressor。
我們研究基於Transformer的大型語言模型(LLMs)在生成事實錯誤文本時的內部行為。我們提出將事實查詢建模為約束滿足問題,並利用這個框架來研究模型如何在內部與事實約束互動。具體來說,我們發現模型對約束標記的關注程度與其回應的事實準確性之間存在著強烈的正相關。在我們精心挑選的11個數據集中,包含超過40,000個提示,我們研究了使用Llama-2系列在所有規模(7B、13B、70B)上預測事實錯誤的任務。我們提出了SAT Probe方法,這是一種探測自注意力模式的方法,可以預測約束滿足和事實錯誤,並允許早期錯誤識別。這種方法和研究結果展示了如何利用對LLMs中事實性的機械理解來增強可靠性。