每日精選AI研究論文及翻譯
想像一位開發者只能修改他們最後一行的程式碼,他們在正確之前需要多少次重新從頭撰寫一個函數呢?從自然語言生成程式碼的自回歸模型也有類似的限制:它們不容易重新考慮先前生成的標記。我們引入了 CodeFusion,一個預訓練擴散程式碼生成模型,通過迭代地對編碼的自然語言進行去噪,來解決這個限制。我們在 Bash、Python 和 Microsoft Excel 條件格式化 (CF) 規則的自然語言轉換程式碼生成任務上評估了 CodeFusion。實驗表明,CodeFusion(7500 萬參數)在 top-1 準確度方面與最先進的自回歸系統(3500 萬至1750 億參數)表現相當,並且在 top-3 和 top-5 準確度方面優於它們,這是因為它在多樣性與質量之間有更好的平衡。
本文探討了用於高效訓練大型語言模型(LLMs)的FP8低位數據格式。我們的關鍵見解是,在LLM訓練中,大多數變量(如梯度和優化器狀態)可以使用低精度數據格式,而不會影響模型準確性,也無需更改超參數。具體而言,我們提出了一個新的FP8自動混合精度框架,用於LLMs的訓練。該框架提供三個FP8利用級別,以簡化LLMs的混合精度和分佈式並行訓練。它逐步以增量方式將8位梯度、優化器狀態和分佈式學習納入其中。實驗結果顯示,在H100 GPU平台上訓練GPT-175B模型期間,我們的FP8混合精度訓練框架不僅實現了顯著的42%實際內存使用量減少,而且比廣泛採用的BF16框架(即Megatron-LM)運行速度快64%,超越了Nvidia Transformer Engine 17%的速度。這在很大程度上降低了大型基礎模型的訓練成本。此外,我們的FP8混合精度訓練方法是通用的。它可以無縫應用於其他任務,如LLM指令調整和帶有人類反饋的強化學習,從而節省微調費用。我們的FP8低精度訓練框架已在{https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}上開源。
我們提出了ControlLLM,一個新穎的框架,使得大型語言模型(LLMs)能夠利用多模態工具來解決複雜的現實任務。儘管LLMs表現出色,但由於用戶提示模糊、工具選擇和參數化不準確,以及工具排程效率低下,它們仍然在工具調用方面遇到困難。為了克服這些挑戰,我們的框架包括三個關鍵組件:(1)任務分解器,將複雜任務分解為具有明確輸入和輸出的子任務;(2)Thoughts-on-Graph(ToG)範式,在預先構建的工具圖上搜索最佳解決方案路徑,該圖指定不同工具之間的參數和依賴關係;以及(3)一個執行引擎,具有豐富的工具箱,解釋解決方案路徑並在不同計算設備上高效運行工具。我們在涉及圖像、音頻和視頻處理的各種任務上評估我們的框架,展示了與現有方法相比其卓越的準確性、效率和多功能性。
在設備上進行學習和有效的微調,能夠實現持續且保護隱私的定制化(例如,在個性化數據上對大型語言模型進行本地微調)。然而,現有的訓練框架是為具有強大加速器的雲伺服器(例如GPU、TPU)設計的,缺乏針對邊緣學習進行優化的方法,這面臨著資源限制和邊緣硬件多樣性的挑戰。我們介紹了PockEngine:一個小型、稀疏且高效的引擎,可在各種邊緣設備上進行微調。PockEngine支援稀疏反向傳播:它修剪了反向圖並通過測量的內存節省和延遲減少來稀疏更新模型,同時保持模型質量。其次,PockEngine是首次編譯:整個訓練圖(包括前向、反向和優化步驟)在編譯時被推導出來,這減少了運行時的開銷並為圖形轉換帶來機會。PockEngine還整合了豐富的訓練圖優化集,因此可以進一步加速訓練成本,包括運算符重排序和後端切換。PockEngine支援多樣的應用、前端和硬件後端:它靈活地編譯和調整在PyTorch/TensorFlow/Jax中定義的模型,並將二進制部署到移動CPU/GPU/DSP。我們在視覺模型和大型語言模型上評估了PockEngine。PockEngine在現成的TensorFlow(Raspberry Pi)上實現了最高達15倍的加速,反向傳播節省了5.6倍的內存(Jetson AGX Orin)。值得注意的是,PockEngine實現了在NVIDIA Jetson AGX Orin上對LLaMav2-7B進行微調,速度達550 tokens/s,比PyTorch快了7.9倍。
大型語言模型(LLMs)在自然語言任務上表現出潛力,但直接應用於金融等複雜領域時會遇到困難。LLMs在推理和整合所有相關信息方面遇到困難。我們提出了一種以數據為中心的方法,以使LLMs更好地處理金融任務。我們的關鍵見解是,與其一次性將所有信息壓倒LLM,不如對數據進行預處理和預理解更為有效。我們使用多任務提示式微調來創建金融LLM(FLLM),以實現數據預處理和預理解。然而,每個任務的標記數據很少。為了克服手動標註成本,我們採用演繹增強推理(AAR)來通過修改FLLM自身輸出的虛標籤來自動生成訓練數據。實驗表明,我們基於數據的FLLM與AAR顯著優於為原始文本設計的基準金融LLMs,在金融分析和解釋任務上實現了最先進的水平。我們還開源了一個新的金融分析和解釋基準。我們的方法為發掘LLMs在複雜現實世界領域的潛力提供了一條有前途的途徑。
我們提出了一個框架,用於自動測量大型語言模型(LLMs)及其相關產品和服務的負責任人工智慧(RAI)指標。我們的自動測量LLMs造成的損害的框架建立在現有的技術和社會技術專業知識之上,並利用最先進的LLMs(如GPT-4)的能力。我們使用這個框架運行幾個案例研究,探討不同LLMs可能如何違反一系列與RAI相關的原則。該框架可以與特定領域的社會技術專業知識一起使用,以便未來為新的損害領域創建測量標準。通過實施這個框架,我們旨在促進更先進的損害測量工作,進一步推動LLMs的負責使用。
我們引入了一個三維感知擴散模型 ZeroNVS,用於野外場景中的單圖像新視角合成。儘管現有方法是針對帶有遮罩背景的單個物體設計的,我們提出了新的技術來應對野外多物體場景和複雜背景引入的挑戰。具體而言,我們在捕獲以物體為中心、室內和室外場景的數據來源混合物上訓練一個生成先驗。為了應對來自數據混合的問題,如深度尺度模糊,我們提出了一種新的相機條件化參數化和歸一化方案。此外,我們觀察到得分蒸餾抽樣(SDS)在蒸餾 360 度場景時往往會截斷複雜背景的分佈,並提出了“SDS 錨定”以改善合成新視角的多樣性。我們的模型在 DTU 數據集的 LPIPS 上取得了新的最先進結果,即使是在零樣本設置下,也優於專門訓練於 DTU 的方法。我們進一步將具有挑戰性的 Mip-NeRF 360 數據集改編為新的單圖像新視角合成基準,並在此設置中展示出強大的性能。我們的代碼和數據位於 http://kylesargent.github.io/zeronvs/
神經輻射場(Neural Radiance Fields,NeRFs)已被證明是強大的3D表示形式,能夠高質量地合成複雜場景的新視角。雖然NeRFs已應用於圖形、視覺和機器人領域,但慢速渲染和特徵視覺異常問題阻礙了在許多應用案例中的應用。在本研究中,我們探討將自編碼器(Autoencoder,AE)與NeRF結合,其中渲染潛在特徵(而非顏色),然後進行卷積解碼。由此產生的潛在空間NeRF可以比標準顏色空間NeRF產生更高質量的新視角,因為自編碼器可以糾正某些視覺異常,同時渲染速度提高了三倍以上。我們的工作與其他改善NeRF效率的技術是正交的。此外,通過縮小自編碼器架構,我們可以控制效率和圖像質量之間的折衷,實現渲染速度提高13倍以上,僅有輕微性能下降。我們希望我們的方法可以成為下游任務的高效且高保真3D場景表示的基礎,尤其是在需要保留可微性的許多機器人場景中。
我們展示了大型語言模型(LLMs)可以被調整為具有泛化能力的具體視覺任務政策。我們的方法稱為大型語言模型強化學習政策(LLaRP),它調整了一個預先訓練的凍結LLM,以接受文本指令和視覺自我中心觀察作為輸入,並直接在環境中輸出動作。通過強化學習,我們訓練LLaRP僅通過環境交互來觀察和執行。我們展示LLaRP對任務指令的複雜改寫具有魯棒性,並且可以泛化到需要新的最優行為的新任務。特別是,在1,000個未見任務中,它實現了42%的成功率,是其他常見學習基線或LLMs的零-shot應用的成功率的1.7倍。最後,為了幫助社區研究以語言為條件、大規模多任務、具體AI問題,我們發布了一個新的基準,稱為語言重排,包括150,000個訓練任務和1,000個測試任務,用於語言條件的重排。在未見的語言重排指令中,LLaRP的視頻示例可在https://llm-rl.github.io找到。
大型語言模型是在網路上龐大文本的基礎上進行訓練的,其中包含有關世界的事實和誤導性資訊。語言模型能否從這些矛盾的數據中分辨真假呢?進一步探討認為大型語言模型可以模擬不同產生語料的代理人的觀點,我們假設它們可以通過建模真實的人物形象來將真實文本進行分類:一組可能產生真實文本並具有相似特徵的代理人。例如,值得信賴的來源如維基百科和科學通常使用正式的寫作風格並提出一致的主張。通過建模這種人物形象,語言模型可以將真實性概括到每個代理人生成訓練文本的特定情境之外。例如,模型可以推斷“維基百科”代理人在只有“科學”生成的主題上會表現出真實性,因為它們共享一個人物形象。我們首先通過兩個觀察來證明人物形象假設:(1)我們可以在生成之前探測模型的答案是否真實;(2)在一組事實上微調模型可以提高其對未知主題的真實性。接下來,通過算術作為一個合成環境,我們展示語言模型可以區分真假陳述,並在不同代理人之間概括真實性;但前提是訓練數據中的代理人共享一個能夠創建真實人物形象的真實生成過程。總的來說,我們的研究結果表明模型可以利用數據中的層次結構來學習真實性等抽象概念。