每日精選AI研究論文及翻譯
機器學習最近取得的重大突破主要歸功於規模:即大規模基於注意力的架構和空前規模的數據集。本文探討了在國際象棋訓練規模對其影響。與依賴於複雜啟發式、明確搜索或兩者結合的傳統國際象棋引擎不同,我們使用監督學習在一個包含1千萬場國際象棋對局的數據集上訓練了一個擁有2.7億參數的Transformer模型。我們使用強大的Stockfish 16引擎為數據集中的每個棋盤標註動作值,共產生約150億數據點。我們最大的模型在Lichess閃電賽中以2895的Elo分數擊敗人類,並成功解決了一系列具有挑戰性的國際象棋謎題,而無需任何領域特定的調整或明確搜索算法。我們還展示了我們的模型優於AlphaZero的策略和價值網絡(無需MCTS)以及GPT-3.5-turbo-instruct。對模型和數據集大小的系統性研究表明,強大的國際象棋表現僅在足夠的規模下才會出現。為驗證我們的結果,我們進行了一系列對設計選擇和超參數的大量消融實驗。
螢幕使用者介面(UI)和資訊圖表在人類溝通和人機互動中扮演重要角色,具有相似的視覺語言和設計原則。我們介紹了ScreenAI,一個專注於理解UI和資訊圖表的視覺語言模型。我們的模型在PaLI架構的基礎上進行了改進,採用了pix2struct的靈活補丁策略,並在獨特的數據集混合上進行了訓練。這個混合數據集的核心是一個新穎的螢幕標註任務,模型必須識別UI元素的類型和位置。我們使用這些文本標註來描述螢幕給大型語言模型,並在規模上自動生成問答(QA)、UI導航和摘要訓練數據集。我們進行消融研究以展示這些設計選擇的影響。僅使用5B參數,ScreenAI在UI和資訊圖表相關任務(多頁DocVQA、WebSRC、MoTIF和Widget標題)上取得了新的最先進結果,並與相似大小的模型相比在其他任務(圖表QA、DocVQA和資訊圖表QA)上表現最佳。最後,我們釋出了三個新數據集:一個專注於螢幕標註任務,另外兩個專注於問答。
最近出現的直接從偏好對齊(DAP)方法,如DPO,已成為從人類反饋中高效的替代方案,不需要單獨的獎勵模型。然而,在DAP方法中使用的偏好數據集通常在訓練之前收集,並且從不更新,因此反饋純粹是離線的。此外,這些數據集中的回應通常是從一個與正在對齊的語言模型不同的模型中抽樣的,並且由於模型在訓練過程中不斷演進,對齊階段不可避免地是離策略的。在這項研究中,我們認為在線反饋至關重要,並且可以改善DAP方法。我們的方法,在線人工智能反饋(OAIF),使用一個大型語言模型作為標註者:在每個訓練迭代中,我們從當前模型中抽樣兩個回應,並提示LLM標註者選擇哪個更受偏好,從而提供在線反饋。儘管方法簡單,但我們通過在多個任務中進行人類評估表明,OAIF優於離線DAP和RLHF方法。我們進一步展示,在OAIF中利用的反饋通過對LLM標註者的指示提示可以輕鬆控制。
在品質和速度方面,3D 內容創建已取得顯著進展。儘管目前的前饋模型可以在幾秒內生成 3D 物體,但其解析度受到訓練過程中所需的密集計算的限制。本文介紹了大型多視角高斯模型(LGM),這是一個新穎的框架,旨在從文本提示或單視圖圖像生成高解析度的 3D 模型。我們的關鍵見解有兩個方面:1)3D 表示:我們提出多視角高斯特徵作為一種高效但強大的表示,然後可以將其融合在一起進行可微渲染。2)3D 主幹:我們提出了一種非對稱 U-Net 作為高通量主幹,可在多視圖圖像上運行,這些圖像可以通過利用多視圖擴散模型從文本或單視圖圖像輸入中生成。大量實驗證明了我們方法的高保真度和效率。值得注意的是,我們保持了在 5 秒內生成 3D 物體的快速速度,同時將訓練解析度提升至 512,從而實現了高解析度的 3D 內容生成。
我們提出了EfficientViT-SAM,這是一個新的加速區段任務模型系列。我們保留了SAM的輕量級提示編碼器和遮罩解碼器,同時將龐大的影像編碼器替換為EfficientViT。在訓練方面,我們從SAM-ViT-H影像編碼器向EfficientViT進行知識蒸餾。隨後,我們在SA-1B數據集上進行端到端的訓練。由於EfficientViT的效率和容量,EfficientViT-SAM在A100 GPU上的TensorRT速度提升達48.9倍,而不會犧牲性能。我們的程式碼和預訓練模型已在https://github.com/mit-han-lab/efficientvit 釋出。
基於Transformer的大型語言模型(LLMs)現已部署到數億用戶。LLM推理通常在共享前綴的序列批次上執行,例如少量示例或聊天機器人系統提示。在這種大批次設置中,解碼可能會受到關注操作的瓶頸影響,該操作從內存中讀取大型鍵值(KV)緩存,並為批次中的每個序列計算低效的矩陣-向量乘積。在這項工作中,我們介紹了Hydragen,這是一個硬件感知的精確關注實現,具有共享前綴。Hydragen分別計算共享前綴和獨特後綴的關注。這種分解通過跨序列批次一起批處理查詢,實現了有效的前綴關注,減少了冗餘的內存讀取,並實現了硬件友好的矩陣乘法的使用。我們的方法可以將端到端的LLM吞吐量提高多達32倍,優於競爭基準,速度隨著批次大小和共享前綴長度的增加而增加。Hydragen還可以實現使用非常長的共享上下文:在高批次大小下,將前綴長度從1K增加到16K標記,Hydragen吞吐量下降不到15%,而基準的吞吐量下降超過90%。Hydragen不僅適用於簡單的前綴-後綴分解,還可以應用於基於樹的提示共享模式,使我們能夠進一步減少在競爭性編程問題上的推理時間達55%。
大型語言模型越來越能夠解決一般認為需要人類水平推理能力的任務。然而,這些模型在像是抽象和推理語料庫(ARC)這樣的智能總體基準測試中表現仍然非常糟糕。在本文中,我們將ARC視為一個通過示例編程的問題,並引入一種名為程式迭代(CodeIt)的新穎且可擴展的語言模型自我改進方法。我們的方法在程式採樣和事後重新標記以及從優先經驗重播中學習之間進行迭代。通過將一個情節的目標(即給定輸入的目標程式輸出)重新標記為採樣程式生成的實際輸出,我們的方法有效處理了程式綜合中獎勵的極度稀疏性。將CodeIt應用於ARC數據集,我們展示了優先事後重播、預訓練和數據擴增結合,實現了成功的任務間泛化。CodeIt是首個能夠擴展到完整ARC評估數據集的神經符號方法。我們的方法解決了15%的ARC評估任務,實現了最先進的性能,並優於現有的神經和符號基準。
線性注意力已顯示出提升Transformer效率的潛力,將注意力的二次複雜度在序列長度上降至線性。這對於(1)從頭開始訓練線性Transformer,(2)將特定任務的Transformer進行“微調轉換”為能夠恢復任務性能的線性版本,以及(3)將大型語言模型等Transformer進行“預訓練轉換”為可在下游任務上進行微調的線性版本,帶來令人振奮的前景。然而,線性注意力在質量上通常表現不如標準的softmax注意力。為了彌補這一性能差距,我們發現先前的線性注意力缺乏與良好性能相關聯的softmax注意力的關鍵特性:低熵(或“尖銳”)權重和點積單調性。我們進一步觀察到一些驚人簡單的特徵映射,保留了這些特性並與softmax性能匹配,但在線性注意力中計算效率低下。因此,我們提出Hedgehog,一種可學習的線性注意力,保留了softmax注意力的尖銳和單調特性,同時保持線性複雜度。Hedgehog使用簡單可訓練的MLP來生成模仿softmax注意力的注意力權重。實驗表明,Hedgehog在從頭訓練和微調轉換設置中恢復了標準Transformer質量的超過99%,在WikiText-103上的因果GPT中比先前的線性注意力高出多達6個困惑度點,在微調的雙向BERT上高達8.7個GLUE分數點。Hedgehog還實現了預訓練轉換。將預訓練的GPT-2轉換為線性注意力變體,在125M次二次解碼器模型的WikiText-103上實現了16.7的困惑度,達到了最新水平。最後,我們將預訓練的Llama-2 7B轉換為可行的線性注意力Llama。通過低秩適應,Hedgehog-Llama2 7B在ROUGE-1分數上比基礎標準注意力模型高出28.1個點,而先前的線性注意力導致16.5個點的下降。
從文字提示生成長形式44.1kHz立體聲音頻可能需要大量計算。此外,大多數先前的研究並未處理音樂和音效在持續時間上自然變化的問題。我們的研究專注於使用生成模型,以有效方式生成長形式、可變長度的44.1kHz立體音樂和音效,並以文字提示作為基礎。穩定音頻基於潛在擴散,其潛在性由完全卷積變分自編碼器定義。它受文字提示和時間嵌入的條件限制,允許對生成的音樂和音效的內容和長度進行精細控制。穩定音頻能夠在A100 GPU上以8秒的速度在44.1kHz下渲染長達95秒的立體信號。儘管它具有計算效率和快速推論的特點,但在兩個公開的文本轉音樂和音頻基準測試中,它仍然是最佳之一,與最先進的模型不同,它能夠生成具有結構和立體音效的音樂。
本文提出了一種新穎的方法,用於在大型語言模型(LLMs)的分佈式部署期間減少模型推論延遲。我們的貢獻是一種優化的推論部署方案,解決了當前最先進的量化內核與Tensor Parallel(TP)結合使用時的限制。我們的方法保留了GPU內存訪問模式中的數據局部性,並利用TP的先驗知識來減少全局通信。我們展示了在A100和H100 NVIDIA DGX系統上,對於各種TP設置,相對於現有方法,對於Llama-70B可達到高達1.81倍的加速,對於IBM WatsonX的Granite-20B MLP層問題尺寸可達到高達1.78倍的加速。
由於相對輕微的開銷和提高效率,N:M 結構稀疏性引起了廣泛的興趣。此外,這種稀疏性形式因其較小的表示開銷對減少記憶體佔用量具有相當吸引力。已經有一些努力為 N:M 結構稀疏性開發訓練配方,主要集中在低稀疏區域(約50\%)。然而,使用這些方法訓練的模型在面對高稀疏區域(>80\%)時性能往往會下降。在這項工作中,我們研究了現有稀疏訓練配方在高稀疏區域的有效性,並指出這些方法未能維持與低稀疏區域相當的模型品質。我們證明導致這種差異的一個重要因素是梯度幅度中引入的噪音水平升高。為了減輕這種不良影響,我們採用衰減機制逐步限制梯度流向被修剪元素。我們的方法在高稀疏區域分別提高了視覺和語言模型達 2% 和 5% 的模型品質。我們還根據 FLOPs(每秒浮點運算數)評估模型準確性和訓練計算成本之間的平衡。在等效的訓練 FLOPs 情況下,我們的方法相比傳統的稀疏訓練配方表現更好,準確性提高了高達 2%。源代碼可在 https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity 找到。