每日精選AI研究論文及翻譯
我們繼續探討基於Transformer的較小語言模型的能力,這是由TinyStories啟動的 - 一個能夠生成連貫英語的1,000萬參數模型,以及對phi-1的後續工作,這是一個擁有13億參數的模型,其Python編碼性能接近最先進水平。後者的工作提出利用現有的大型語言模型(LLMs)生成“教科書質量”的數據,以增強學習過程,相較於傳統的網絡數據。我們採用“只需教科書”方法,這次專注於自然語言中的常識推理,並創建了一個新的13億參數模型,名為phi-1.5,其在自然語言任務上的性能可與大5倍的模型相媲美,並且在較複雜的推理任務上(如小學數學和基本編碼)超越了大多數非前沿的LLMs。更廣泛地說,phi-1.5展現了許多較大LLMs的特徵,包括優點 - 如能夠“逐步思考”或執行一些基本的上下文學習 - 以及缺點,包括幻覺和產生有毒和偏見的可能性 - 令人鼓舞的是,由於缺乏網絡數據,我們正在看到在這方面的改進。我們將phi-1.5開源,以促進進一步研究這些迫切的話題。
近來,多模式大型語言模型(MM-LLMs)取得了令人振奮的進展,但它們主要受制於僅具有輸入端多模式理解的限制,無法在多個模式中生成內容。由於我們人類總是通過各種模式感知世界並與人溝通,開發能夠接受和提供任何模式內容的任意到任意MM-LLMs對於達到人類級AI至關重要。為了填補這一空白,我們提出了一個端到端通用的任意到任意MM-LLM系統,名為NExT-GPT。我們將一個LLM與多模式適配器和不同擴散解碼器相連接,使NExT-GPT能夠以任意組合的文本、圖像、視頻和音頻感知輸入並生成輸出。通過利用現有的訓練良好且性能優異的編碼器和解碼器,NExT-GPT僅調整了少量參數(某些投影層的1%),這不僅有利於低成本訓練,還有助於方便擴展到更多潛在的模式。此外,我們引入了一種模式切換指令調整(MosIT),並手動精心策劃了一個高質量的MosIT數據集,基於這個數據集,NExT-GPT具有了複雜的跨模式語義理解和內容生成能力。總的來說,我們的研究展示了構建一個能夠建模通用模式的AI代理的前景,為社區中更具人類化的AI研究鋪平了道路。
我們介紹了MADLAD-400,這是一個手動審核的通用領域3T令牌單語數據集,基於CommonCrawl,涵蓋了419種語言。我們討論了自我審核MADLAD-400揭示的限制,以及數據審核在數據集創建過程中的作用。然後,我們使用公開可用數據訓練並發布了一個包含107億參數的多語言機器翻譯模型,覆蓋了超過450種語言的2500億令牌,發現它與大得多的模型相競爭,並在不同領域報告結果。此外,我們訓練了一個包含80億參數的語言模型,並對少樣本翻譯結果進行評估。我們將基準模型提供給研究社區。
在這項工作中,我們使用大型語言模型(LLMs)來擴充和加速對P與NP問題的研究,這是理論計算機科學和數學中最重要的未解問題之一。具體而言,我們提出了蘇格拉底推理,這是一個促進LLMs進行深入思考以解決複雜問題的通用框架。蘇格拉底推理鼓勵LLMs遞迴地發現、解決和整合問題,同時促進自我評估和改進。我們對P與NP問題的試驗性研究表明,GPT-4成功地生成了證明架構,並在97次對話中進行了嚴謹的推理,得出了“P不等於NP”的結論,這與(Xu和Zhou,2023)一致。這項研究揭示了LLMs廣泛解決空間中的新見解,為科學中的LLMs提供了新的視野。
我們以一種輕量級的方式分析了一個大型語言模型家族,可以在單個GPU上完成。具體來說,我們專注於OPT家族的模型,其參數範圍從1.25億到660億,僅依賴於FFN神經元是否被激活。首先,我們發現網絡的早期部分是稀疏的,並代表許多離散特徵。在這裡,許多神經元(在660億模型的某些層中超過70%)是“死”的,即它們在大量多樣化數據集上從不被激活。與此同時,許多活躍的神經元被保留用於離散特徵,並充當標記和n-gram檢測器。有趣的是,它們對應的FFN更新不僅促進下一個標記候選項,這是可以預期的,而且還明確專注於刪除有關觸發它們標記的信息,即當前輸入。據我們所知,這是專門用於從剩餘流中刪除(而不是添加)信息的機制的第一個例子。隨著規模的擴大,模型在某種意義上變得更加稀疏,即具有更多死神經元和標記檢測器。最後,一些神經元是位置性的:它們是否被激活在很大程度上(或僅僅)取決於位置,而不那麼(或根本不)取決於文本數據。我們發現較小的模型具有一組神經元作為位置範圍指示器,而較大的模型以一種不那麼明確的方式運作。
近年來,大量的文本數據對大型語言模型(LLMs)的發展做出了重要貢獻。這些數據通常通過網絡抓取來獲取,形成由嘈雜網絡文本組成的預訓練數據集。迄今為止,將這些數據集修剪為更高質量子集的努力依賴於手工設計的啟發式,這些啟發式被編碼為基於規則的過濾器。在這項工作中,我們採取更廣泛的視角,探索可用於系統性地衡量預訓練數據質量的可擴展估計。我們在規模上進行了嚴格的比較,比較了簡單的數據質量估計器困惑度,以及更複雜和計算密集的誤差L2-範數和記憶化估計。這些指標用於對預訓練語料庫進行排名和修剪,然後我們比較了在這些修剪數據集上訓練的LLMs。令人驚訝的是,我們發現簡單的困惑度技術勝過我們更耗費計算資源的評分方法。我們在訓練時僅使用原始訓練數據集的30%時,超越了我們的無修剪基線。我們的工作為自動精選高質量語料庫中未開發的策略奠定了基礎,並暗示大多數預訓練數據可以被刪除而保持性能。
Transformer 已成為深度學習中的主要模型,但其優越性能的原因尚不清楚。在這裡,我們假設 Transformer 的強大性能源於對 mesa-optimization 的架構偏好,這是一個在模型前向傳遞中運行的學習過程,包括以下兩個步驟:(i) 內部學習目標的建立,以及 (ii) 通過優化找到相應的解決方案。為了驗證這一假設,我們對一系列在簡單序列建模任務上訓練的自回歸 Transformer 進行了逆向工程,揭示了驅動預測生成的基於梯度的 mesa-optimization 算法。此外,我們展示了學習的前向傳遞優化算法可以立即重新用於解決監督式少樣本任務,這表明 mesa-optimization 可能構成大型語言模型的上下文學習能力的基礎。最後,我們提出了一個新穎的自注意力層,mesa-layer,明確且高效地解決了上下文中指定的優化問題。我們發現這一層可以提高合成和初步語言建模實驗的性能,進一步證實了 mesa-optimization 是藏在訓練過的 Transformer 權重中的重要操作的假設。
大型語言模型(LLMs)已證明其在執行與語言相關的任務方面具有卓越的能力。然而,由於它們需要大量的記憶體和存儲空間,它們的部署面臨著重大挑戰。為應對這一問題,僅權重量化,特別是3位和4位的僅權重量化,已成為最可行的解決方案之一。隨著位數的減少,量化網格變得更廣,因此強調了向上和向下舍入的重要性。雖然先前的研究已經證明,在某些情況下,通過微調向上和向下舍入並添加擾動可以提高準確性,但我們的研究受到這些擾動的精確和有限邊界的驅使,僅改變舍入值的閾值具有重要意義。因此,我們提出了一種簡潔而高效的方法來優化權重舍入任務。我們的方法名為SignRound,涉及使用帶符號的梯度下降進行輕量級塊調整,使我們能夠在400個步驟內取得優異的結果。SignRound優於最近方法中已建立的最近舍入(RTN)基準,並且在不引入額外推理開銷的情況下與其競爭得令人印象深刻。源代碼將很快公開在https://github.com/intel/neural-compressor。
音訊-語言模型共同學習多模態文本和音訊表示,實現零樣本推理。模型依賴編碼器來創建強大的輸入表示,並泛化到多個任務,包括聲音、音樂和語音。儘管模型取得了顯著的性能,但仍存在與特定任務模型之間的性能差距。在本文中,我們提出了一種對比語言-音訊預訓練模型,該模型使用兩個創新的編碼器對包含460萬音訊-文本對的多樣集合進行預訓練,以實現零樣本推理。為了學習音訊表示,我們在22個音訊任務上訓練了一個音訊編碼器,而不是標準的聲音事件分類訓練。為了學習語言表示,我們訓練了一個僅自回歸解碼器模型,而不是標準的僅編碼器模型。然後,通過對比學習將音訊和語言表示帶入聯合多模態空間。我們使用我們的編碼器在下游性能上取得了一定的改進。我們對我們的表示在26個下游任務上進行了廣泛評估,這在文獻中是最大的。我們的模型在幾個任務中取得了最先進的結果,引領通往通用音訊表示的道路。
將多邊形網格資產嵌入逼真的神經輻射場(NeRF)體積中,以便能夠以與 NeRF 物理一致的方式渲染它們並模擬其動態,這方面從將 NeRF 整合到傳統圖形管線的系統角度來看,尚未得到充分探討。本文設計了在渲染和模擬期間網格和 NeRF 之間的雙向耦合。我們首先回顧了網格和 NeRF 的光傳輸方程式,然後將它們提煉成一種有效的算法,用於沿著具有任意反射次數的投射射線更新輻射和通量。為了解決路徑追踪器假定的線性顏色空間與標準 NeRF 使用的 sRGB 顏色空間之間的差異,我們使用高動態範圍(HDR)圖像來訓練 NeRF。我們還提出了一種估計光源並在 NeRF 上投射陰影的策略。最後,我們考慮了如何將混合表面-體積形式與支持布料、剛體和軟體的高性能物理模擬器有效地整合。完整的渲染和模擬系統可以在 GPU 上以互動速率運行。我們展示了混合系統方法在網格插入的視覺逼真度方面優於其他方法,因為它允許體積 NeRF 媒體中的逼真光傳輸影響表面,這影響了反射/折射表面的外觀以及由動態場景資訊影響的漫反射表面的照明。
大型語言模型(LLMs)的學習範式目前主要分為上下文學習(ICL)和完全微調兩種。每種方法都有其基於可用數據、模型大小、計算成本、易用性和最終質量的取捨,但沒有一種方法能夠全面表現良好。在本文中,我們首先描述了ICL和微調範式,突顯它們之間的自然聯繫。基於這些聯繫,我們提出了一種名為FIAT的新學習範式,將這些範式的優點融合在一起,實現了大型模型的即時工程指令和思維鏈推理,同時還使用類似的方法對具有參數高效調整的中等大小LLM執行參數更新。我們在各種多語言任務上評估了FIAT的有效性,觀察到FIAT在100-10,000個訓練示例範圍內的表現優於ICL和微調。我們希望FIAT提供了一種實用的方式,可以充分發揮LLMs的潛力,而無需在學習範式之間做出艱難的選擇。