每日精選AI研究論文及翻譯
在指令上微調大型語言模型(LLMs)可以極大地提升自然語言任務的表現。我們應用代碼進行指令微調,利用 Git 提交的自然結構,將代碼更改與人類指令配對。我們編制了 CommitPack:跨 350 種編程語言的 4TB Git 提交。我們在 16B 參數的 StarCoder 模型上對比 CommitPack 與其他自然和合成代碼指令(xP3x、Self-Instruct、OASST),在未經 OpenAI 輸出訓練的模型中,在 HumanEval Python 基準測試中取得了最先進的表現(46.2% pass@1)。我們進一步引入 HumanEvalPack,將 HumanEval 基準擴展到總共 3 項編碼任務(代碼修復、代碼解釋、代碼合成),跨 6 種語言(Python、JavaScript、Java、Go、C++、Rust)。我們的模型 OctoCoder 和 OctoGeeX 在 HumanEvalPack 中在所有寬鬆模型中取得最佳表現,展示了 CommitPack 在泛化到更廣泛語言和自然編碼任務方面的優勢。代碼、模型和數據可在 https://github.com/bigcode-project/octopack 免費獲得。
近年來,大型文本到圖像擴散模型展現了強大的能力,具有令人印象深刻的生成能力,可以創建高保真度的圖像。然而,僅使用文本提示生成所需圖像非常棘手,因為這通常涉及複雜的提示工程。作為文言所說,文如其人,圖如其意。儘管現有的直接微調預訓練模型的方法是有效的,但它們需要大量計算資源,並且與其他基本模型、文本提示和結構控制不兼容。在本文中,我們提出了IP-Adapter,一種有效且輕量級的適配器,用於實現預訓練文本到圖像擴散模型的圖像提示功能。我們的IP-Adapter的關鍵設計是解耦的交叉注意機制,將文本特徵和圖像特徵的交叉注意層分開。儘管我們的方法簡單,但只有2200萬參數的IP-Adapter可以實現與完全微調的圖像提示模型相當甚至更好的性能。由於我們凍結了預訓練的擴散模型,所提出的IP-Adapter不僅可以泛化到從相同基本模型微調的其他自定義模型,還可以應用於使用現有可控工具進行可控生成。通過解耦的交叉注意策略的好處,圖像提示也可以與文本提示良好配合,實現多模態圖像生成。項目頁面位於https://ip-adapter.github.io。
最近基於音訊-文本提示的生成式語音模型取得了重大進展,使得高質量的零-shot文本轉語音等創新成果成為可能。然而,現有模型在處理多樣的音訊-文本語音生成任務上仍存在限制,包括轉換輸入語音和處理在惡劣聲學環境下捕獲的音訊。本文介紹了SpeechX,一個多功能語音生成模型,能夠進行零-shot文本轉語音和各種語音轉換任務,處理乾淨和嘈雜信號。SpeechX結合了神經編解碼器語言建模和使用任務相關提示的多任務學習,實現統一且可擴展的建模,並提供了一致的方式來利用文本輸入進行語音增強和轉換任務。實驗結果顯示SpeechX在各種任務中的有效性,包括零-shot文本轉語音、降噪、目標說話者提取、語音去除以及帶或不帶背景噪音的語音編輯,實現了與專用模型相當或更優秀的性能。請參見https://aka.ms/speechx以獲取演示樣本。
我們介紹了 Platypus,這是一系列經過精細調整和合併的大型語言模型(LLMs),在HuggingFace的Open LLM排行榜中表現最佳,並且目前位居第一。在這份工作中,我們描述了以下內容:(1)我們精心挑選的數據集 Open-Platypus,這是其他開放數據集的子集,並向公眾發布;(2)我們對 LoRA 模塊進行精細調整和合併的過程,以保留預訓練LLMs的強大先驗知識,同時凸顯特定領域知識;(3)我們在檢查測試數據洩漏和訓練數據污染方面的努力,這可以為未來研究提供信息。具體來說,Platypus家族在各種模型大小的定量LLM指標中表現出色,在僅使用其他最先進的精細調整LLMs所需的一小部分調整數據和總體計算的情況下,領先於全球Open LLM排行榜。特別是,一個 13B 的 Platypus 模型可以在單個 A100 GPU 上使用 25k 個問題在 5 小時內訓練。這證明了我們的 Open-Platypus 數據集的質量,並為該領域的更多改進提供了機會。項目頁面:https://platypus-llm.github.io
最近的實證證據表明,基於Transformer的上下文學習在使用前綴語言模型(prefixLM)時表現更好,其中上下文樣本可以互相參考,相較於使用因果語言模型(causalLM),後者使用自回歸注意力,禁止上下文樣本參考未來樣本。儘管這個結果在直觀上是合理的,但從理論角度來看尚未被理解。本文採取了理論方法,分析了在特定參數構造下前綴LM和因果LM的收斂行為。我們的分析顯示,兩種LM類型均以線性速率收斂到其穩定點,但前綴LM收斂到線性回歸的最優解,而因果LM的收斂動態則遵循在線梯度下降算法,即使樣本數增長到無窮大,也無法保證達到最優解。我們通過對合成和真實任務以及使用各種類型的Transformer進行實驗,補充我們的理論主張。我們的實驗證實,因果LM在所有情況下始終表現不如前綴LM。
盲目臉部修復旨在從具有未知降質的圖像中恢復高質量的臉部圖像。目前的算法主要引入先驗信息來補充高質量細節並取得顯著進展。然而,大多數這些算法忽略了臉部中豐富的上下文信息及其與先驗信息的相互作用,導致次優性能。此外,它們較少關注合成和現實場景之間的差距,限制了對現實應用的魯棒性和泛化能力。在本研究中,我們提出了RestoreFormer++,一方面引入全空間注意機制來建模上下文信息和與先驗信息的相互作用,另一方面探索擴展降質模型,以幫助生成更真實的降質臉部圖像,以緩解合成到現實世界的差距。與當前算法相比,RestoreFormer++ 具有幾個關鍵優勢。首先,我們引入了多頭交叉注意力機制,而不是像傳統的視覺Transformer 那樣使用多頭自注意力機制,以完全探索受損信息與高質量先驗信息之間的空間交互作用。通過這種方式,它可以促進 RestoreFormer++ 恢復具有更高真實性和忠實度的臉部圖像。其次,與以識別為導向的字典相反,我們學習了以重建為導向的字典作為先驗信息,其中包含更多多樣的高質量臉部細節,更符合修復目標。第三,我們引入了一個擴展降質模型,其中包含更多真實的降質情景用於訓練數據合成,從而有助於增強我們的 RestoreFormer++ 模型的魯棒性和泛化能力。大量實驗表明,RestoreFormer++ 在合成和現實世界數據集上均優於最先進的算法。
憑藉對自然語言目標領域的深刻理解,我們在跨越龐大領域差距並使骨架重生的翻譯方面取得了令人期待的成果。在這項工作中,我們使用了以文本引導的潛在擴散模型,用於零樣本圖像到圖像的翻譯(I2I),跨越了龐大的領域差距(longI2I),需要生成大量新的視覺特徵和新的幾何形狀以進入目標領域。能夠在龐大領域差距上進行翻譯在刑事學、占星學、環境保護和古生物學等現實世界應用中具有廣泛的應用。在這項工作中,我們引入了一個新任務Skull2Animal,用於在頭顱骨和活體動物之間進行翻譯。在這個任務中,我們發現未經引導的生成對抗網絡(GANs)無法跨越龐大的領域差距進行翻譯。我們探索了引導擴散和圖像編輯模型的應用,提出了一個新的基準模型Revive-2I,能夠通過文本提示潛在擴散模型執行零樣本I2I。我們發現,在longI2I中引導是必要的,因為為了彌合龐大的領域差距,需要有關目標領域的先前知識。此外,我們發現提示提供了有關目標領域的最佳和最具擴展性的信息,因為分類器引導的擴散模型需要重新訓練以應對特定用例,並且由於它們訓練的圖像種類繁多,對目標領域的約束力較弱。
機器翻譯(MT)的自動評估是推動MT系統快速迭代發展的關鍵工具。儘管在估計單一標量質量分數方面取得了相當大的進展,但目前的指標缺乏像多維質量度量(MQM)這樣標註單個錯誤的更詳細方案的信息量。本文通過提出AutoMQM來填補這一空白,這是一種利用大型語言模型(LLMs)的推理和上下文學習能力,要求它們識別和分類翻譯中的錯誤的提示技術。我們首先通過簡單的分數預測提示來評估最近的LLMs,如PaLM和PaLM-2,並通過上下文學習和微調來研究標記數據的影響。然後,我們使用PaLM-2模型評估AutoMQM,發現與僅提示分數相比(尤其是對於更大的模型),它提高了性能,同時通過與人類標註相符的錯誤範圍提供了可解釋性。
我們介紹 VisIT-Bench(Visual InsTruction Benchmark),這是一個用於評估視覺語言模型在現實世界應用中遵循指示的基準。我們的起點是整理了 70 個「指示家族」,我們認為調整指示的視覺語言模型應該能夠應對這些家族。除了像 VQAv2 和 COCO 這樣的評估之外,任務範圍從基本識別到遊戲玩法和創意生成。在整理之後,我們的數據集包括 592 個測試查詢,每個查詢都有一個由人類撰寫的指示條件標題。這些描述展示了指示特定因素,例如,對於一個詢問輪椅使用者店鋪是否易於進入的指示,指示條件標題描述了坡道/潛在障礙物。這些描述使得我們能夠 1)為每個實例收集經人驗證的參考輸出;以及 2)使用僅文本的 LLM 自動評估候選多模態生成,與人類判斷保持一致。我們通過人工和自動評估量化模型與參考之間的質量差距;例如,在比較中,表現最佳的遵循指示模型僅在 27% 的情況下勝過 GPT-4 參考。VisIT-Bench 是一個動態參與的項目,從業者只需在項目網站上提交其模型的回應;數據、代碼和排行榜可在 visit-bench.github.io 上找到。