每日精選AI研究論文及翻譯
發展大型語言模型(LLMs)並具有令人印象深刻的學習能力的驅動因素在於它們龐大的模型大小和龐大的訓練數據集。隨著自然語言處理的進展,LLMs經常被公開提供以促進更深入的研究和應用。然而,就這些LLMs的訓練數據集,特別是最近的最先進模型而言,通常並未完全披露。為高性能LLMs創建訓練數據涉及廣泛的清理和去重,以確保必要的質量水平。對於訓練數據的透明度因此阻礙了對LLMs中幻覺和偏見問題的歸因和解決的研究,阻礙了複製努力和社區進一步進展。這些挑戰在多語言學習場景中變得更加突出,其中可用的多語言文本數據集通常收集和清理不足。因此,在有效訓練多語言LLMs方面缺乏開源且可立即使用的數據集。為解決這個問題,我們提出了CulturaX,一個包含167種語言、總共63萬億標記的大型多語言數據集,專為LLM開發而設。我們的數據集通過多個階段的嚴格流程進行細緻的清理和去重,以確保模型訓練的最佳質量,包括語言識別、基於URL的過濾、基於指標的清理、文件精煉和數據去重。CulturaX已完全向公眾開放,以促進多語言LLMs的研究和進展:https://huggingface.co/datasets/uonlp/CulturaX。
我們探討在特定領域語料庫上持續預訓練對大型語言模型的影響,發現在原始語料庫上訓練賦予模型領域知識,但極大損害了其在問答方面的提示能力。受到人類通過閱讀理解來提高回答基於所學知識問題能力的啟發,我們提出了一種將原始語料庫轉換為閱讀理解文本的簡單方法。每個原始文本都會豐富其內容相關的一系列任務。我們的方法非常可擴展,適用於任何預訓練語料庫,並在三個不同領域(生物醫學、金融和法律)的各種任務中持續提升性能。值得注意的是,我們的 7B 語言模型實現了與規模遠大得多的特定領域模型(如 BloombergGPT-50B)競爭力的表現。此外,我們證明了特定領域的閱讀理解文本甚至可以提高模型在通用基準上的性能,展示了開發跨更多領域通用模型的潛力。我們的模型、代碼和數據將在 https://github.com/microsoft/LMOps 上提供。
大型語言模型(LLMs)在文件問答(QA)中存在問題,當文件無法符合LLM的小上下文長度時。為了克服這個問題,大多數現有的研究著重於從文件中檢索相關上下文,並將其表示為純文本。然而,像PDF、網頁和簡報這樣的文件通常具有不同的頁面、表格、章節等結構。將這些結構化文件表示為純文本與用戶對這些具有豐富結構的文件的心智模型不一致。當系統必須向文件查詢上下文時,這種不一致性就會凸顯出來,看似微不足道的問題可能會使QA系統出錯。為了彌合處理結構化文件中的這個基本差距,我們提出了一種名為PDFTriage的方法,該方法使模型能夠基於結構或內容檢索上下文。我們的實驗證明了所提出的PDFTriage增強模型在幾個問題類別上的有效性,而現有的檢索增強LLMs則失敗了。為了促進進一步研究這個基本問題,我們釋出了我們的基準數據集,其中包含來自10個不同問題類型的80個結構化文件中的900多個人工生成問題。
本文提供了一份全面調查,探討展示視覺和視覺語言能力的多模基礎模型的分類和演進,重點放在從專業模型轉向通用助手。研究範圍包括五個核心主題,分為兩個類別。(i)我們首先對已建立的研究領域進行調查:為特定目的預先訓練的多模基礎模型,包括兩個主題--學習視覺骨幹進行視覺理解的方法和文本到圖像生成。(ii)然後,我們介紹了最近在探索性、開放性研究領域取得的進展:旨在扮演通用助手角色的多模基礎模型,包括三個主題--受大型語言模型啟發的統一視覺模型、多模統一語言模型的端對端訓練,以及將多模工具與語言模型進行鏈接。本文的目標讀者是計算機視覺和視覺語言多模社區中渴望了解多模基礎模型基礎知識和最新進展的研究人員、研究生和專業人士。
我們展示了對比解碼(Contrastive Decoding)──一種由Li等人在2022年提出的簡單、計算輕、無需訓練的文本生成方法──在各種推理任務中實現了大幅的開箱即用改進,優於貪婪解碼。最初被證明可提升長文本生成的感知質量,對比解碼尋找最大化強模型和弱模型之間可能性差異的字串。我們展示對比解碼使LLaMA-65B在HellaSwag常識推理基準測試中超越了LLaMA 2、GPT-3.5和PaLM 2-L,並在GSM8K數學詞推理基準測試中超越了LLaMA 2、GPT-3.5和PaLM-540B,同時在一系列其他任務上也有改進。分析表明,對比解碼通過防止某些抽象推理錯誤以及避免在思維鏈中複製輸入的部分等簡單模式,改進了現有方法。總的來說,對比解碼優於核心抽樣(nucleus sampling)用於長文本生成,優於貪婪解碼用於推理任務,使其成為從語言模型生成文本的強大通用方法。
大型語言模型(LLMs)的快速發展已經徹底改變了自然語言處理(NLP)。儘管這些模型擅長於理解和生成類似人類的文本,但它們的廣泛部署可能成本過高。SortedNet是一種用於實現深度神經網絡動態推斷的最新訓練技術。它利用網絡模塊化來創建具有不同計算負載的子模型,並根據計算/準確性特徵以嵌套方式對其進行排序。我們將SortedNet擴展到生成式NLP任務,使大型語言模型在不需要任何預訓練的情況下變得動態,並僅以相同成本將標準監督微調(SFT)替換為Sorted Fine-Tuning(SoFT)。我們的方法提高了模型的效率,消除了在推斷過程中為各種情況使用多個模型的需要。我們展示了通過使用這種方法,我們能夠發揮變壓器中間層在生成目標輸出方面的潛力。我們的子模型仍然是原始模型的重要組成部分,最大程度地減少了存儲需求和在不同計算/延遲預算之間的過渡成本。通過將此方法應用於LLaMa 2 13B,對於在Stanford Alpaca數據集上進行調整並將其與正常調整和通過PandaLM基準提前退出進行比較,我們展示了Sorted Fine-Tuning可以以兩倍於原始模型的速度交付模型,同時保持或超越性能。
大型語言模型(LLMs)展示了在僅憑幾個自然語言指令示例的基礎上,在各種自然語言任務上表現出色,減少了對廣泛特徵工程的需求。然而,大多數功能強大的LLMs都是封閉源碼,或在其他語言方面的能力受到限制,無法與英語相提並論。在這份技術報告中,我們介紹了Baichuan 2,這是一系列包含70億和130億參數的大規模多語言語言模型,從頭開始訓練,總共有2600億標記。Baichuan 2在公開基準測試如MMLU、CMMLU、GSM8K和HumanEval上與其他開源模型表現匹敵甚至優於其,此外,Baichuan 2在醫學和法律等垂直領域表現出色。我們將釋出所有預訓練模型檢查點,以幫助研究社群更好地理解Baichuan 2的訓練動態。
最近,視覺指導調整在開源大型多模型模型(LMM)如LLaVA和MiniGPT-4中取得了令人鼓舞的進展。然而,大多數現有的開源LMM研究是使用具有130億參數或更少的模型進行的。本文介紹了將LLaVA擴展至330億和650億/700億的實證研究,並分享了我們在圖像分辨率、數據混合和諸如LoRA/QLoRA之類的參數高效訓練方法方面的發現。這些方法通過在野外完成真實任務時對多模態和語言能力的影響進行評估。 我們發現,擴展LMM一貫地提升了模型性能並改善了語言能力,而LoRA/QLoRA對LMM的調整性能與完整模型微調的性能相當。此外,該研究強調了較高的圖像分辨率和混合多模態-語言數據對改善LMM性能的重要性,並且視覺指導調整有時可以提升LMM的純語言能力。我們希望這項研究使更大規模的最新LMM研究更易於訪問,從而有助於為未來研究建立更強的基準。代碼和檢查點將被公開。
圖形版面生成是一個不斷增長的研究領域,在用戶參與和信息感知中發揮著重要作用。現有方法主要將版面生成視為一個數值優化任務,著重於定量方面,卻忽略了版面的語義信息,例如每個版面元素之間的關係。本文提出了LayoutNUWA,這是第一個將版面生成視為代碼生成任務以增強語義信息並利用大型語言模型(LLMs)的隱藏版面專業知識的模型。更具體地,我們開發了一種代碼指導調整(CIT)方法,包括三個相互連接的模塊:1)代碼初始化(CI)模塊量化數值條件並將其初始化為帶有策略性放置遮罩的HTML代碼;2)代碼完成(CC)模塊利用LLMs的格式化知識填充HTML代碼中的遮罩部分;3)代碼渲染(CR)模塊將完成的代碼轉換為最終版面輸出,確保高度可解釋和透明的版面生成過程,直接將代碼映射到可視化版面。我們在多個數據集上實現了顯著的最新性能(甚至超過50%的改進),展示了LayoutNUWA的強大能力。我們的代碼可在https://github.com/ProjectNUWA/LayoutNUWA 上找到。
大型語言模型(LLMs)具有在多智能體系統中執行複雜排程的能力,可以協調這些智能體完成需要廣泛協作的複雜任務。然而,儘管引入了許多遊戲框架,社群對於構建包含LLM和人類-NPC協作的通用多智能體協作基礎設施仍然缺乏充分的基準。在這項工作中,我們提出了一個新型基礎設施 - MindAgent - 來評估遊戲互動的規劃和協調新能力。特別是,我們的基礎設施利用現有的遊戲框架,i)需要多智能體系統協調者的理解,ii)通過未微調的適當指示與人類玩家協作,iii)在少量提示和反饋上建立上下文學習。此外,我們介紹了一個新的遊戲場景CUISINEWORLD,以及相關的基準,用於評估多智能體協作效率並監督多個智能體同時玩遊戲。我們使用新的自動度量CoS進行全面評估,計算協作效率。最後,我們的基礎設施可以部署到現實世界的遊戲場景中,以CUISINEWORLD的定制VR版本為例,並適應現有更廣泛的Minecraft遊戲領域。我們希望我們對LLMs和通用排程和協調的新基礎設施的研究成果能夠揭示這些技能如何可以通過從大型語言語料庫中學習來獲得。
隨著基於大型語言模型的實際應用快速發展,對於在研究領域中指數增長的性能外推的重要性也日益凸顯。在我們的研究中,我們發現了Transformer模型中一個先前被忽略的異常行為,導致最接近的標記之間出現混亂,而這些標記攜帶著最重要的信息。我們將這一發現命名為「Transformer的頭痛」。為了徹底解決這個問題,我們引入了一種新型的自注意結構,名為Collinear Constrained Attention(CoCA)。這種結構可以與現有的外推、內插方法以及其他針對傳統Transformer模型設計的優化策略無縫集成。我們在推論過程中實現了出色的外推性能,即使對於16至24倍序列長度,也無需對我們的模型進行任何微調。我們還增強了CoCA的計算和空間效率,以確保其實用性。我們計劃很快開源CoCA。與此同時,我們已在附錄中提供了我們的代碼,以便重現實驗。
大型語言模型(LLMs)已經革新了自然語言處理,然而利用RLHF將這些模型與人類價值觀和偏好相一致仍然是一個重大挑戰。這個挑戰的特點是各種不穩定性,如獎勵破解和災難性遺忘。在這份技術報告中,我們提出了兩項創新來穩定RLHF訓練:1)優勢模型,直接建模優勢分數,即與預期獎勵相比的額外獎勵,並調節跨任務的分數分佈,以防止獎勵破解。2)選擇性重演,通過有策略地選擇數據進行PPO訓練和知識重演,減輕災難性遺忘。我們對公共和專有數據集進行的實驗分析顯示,所提出的方法不僅提高了RLHF訓練的穩定性,還實現了更高的獎勵分數和勝率。
儘管像GPT-4這樣的大型語言模型(LLMs)具有強大的能力,但它們仍然在需要生成複雜結構輸出的任務上遇到困難。在這項研究中,我們評估了目前LLMs在生成複雜結構數據方面的能力,並提出了一種結構感知微調方法作為改善這種能力的解決方案。為了進行全面評估,我們提出了Struc-Bench,其中包括五種代表性的LLMs(即GPT-NeoX 20B、GPT-3.5、GPT-4和Vicuna),並在我們精心構建的跨原始文本、HTML和LaTeX表格的數據集上對它們進行評估。基於我們對當前模型性能的分析,我們確定了特定的常見格式錯誤和潛在改進領域。為了應對複雜的格式要求,我們利用FormatCoT(Chain-of-Thought)從目標輸出生成格式指令。我們的實驗表明,當應用於LLaMA-7B時,我們的結構感知微調方法顯著提高了對自然語言約束的遵循,優於其他評估的LLMs。基於這些結果,我們提出了一個模型能力地圖,從六個維度(即覆蓋範圍、格式、推理、理解、語用和幻覺)突顯了LLMs在處理複雜結構輸出方面的弱點,並提出了未來工作的有前途的方向。我們的代碼和模型可在https://github.com/gersteinlab/Struc-Bench 找到。
具有指示遵循能力的大型語言模型已經在人工智慧領域引起了革命。這些模型通過其自然語言界面展現出卓越的泛化能力,能夠應對各種真實世界任務。然而,它們的性能在很大程度上依賴於高質量的示範數據,而這往往很難獲得。當涉及多模式指示遵循時,這一挑戰變得更加嚴峻。我們介紹了TextBind,一個幾乎無需注釋的框架,用於賦予更大語言模型具有多輪交錯的多模式指示遵循能力。我們的方法僅需要圖像說明配對,並從語言模型生成多輪多模式指示-回應對話。我們釋出了我們的數據集、模型和演示,以促進未來在多模式指示遵循領域的研究。
Shampoo是一種屬於AdaGrad方法家族的在線和隨機優化算法,用於訓練神經網絡。它構建了一個塊對角預條件器,其中每個塊由神經網絡的每個參數的粗Kronecker乘積近似構成完整矩陣AdaGrad。在這項工作中,我們提供了對該算法的完整描述,以及我們實現的性能優化,以便在PyTorch中規模化訓練深度網絡。我們的實現通過使用PyTorch的DTensor數據結構來分配每個參數塊的內存和計算,並在每次迭代中對計算的搜索方向執行AllGather原始操作,實現了快速的多GPU分佈式數據並行訓練。這一主要性能增強使我們能夠實現每步時鐘時間最多比標準基於對角線縮放的自適應梯度方法減少10%的性能。我們通過對ImageNet ResNet50進行消融研究來驗證我們的實現,展示了Shampoo相對於標準訓練配方的優越性,並進行了最少的超參數調整。
傳統的對話狀態追蹤(DST)問題旨在追蹤使用者在使用者-代理對話中的偏好和意圖。雖然對於支持狹窄領域應用的任務導向對話系統已足夠,但基於大型語言模型(LLM)的聊天系統的出現在開放領域對話中引入了許多現實世界的細微差異。這些細微差異表現為在上下文交互作用中增加的複雜性、涵蓋各種主題的延伸對話會話以及更頻繁的上下文轉換。為了應對由演進中的基於LLM的聊天系統引起的這些細微差異,我們提出在開放領域對話系統中每個段落進行聯合對話分割和狀態追蹤。假設一個適用於真正開放領域對話系統的零槍擊設置,我們提出S3-DST,這是一種結構提示技術,利用我們為改善長篇上下文追蹤而設計的一種新穎基礎機制——預先分析回憶。為了展示我們提出的聯合分割和狀態追蹤方法的有效性,我們在一個專有的匿名開放領域對話數據集以及公開可用的DST和分割數據集上評估了S3-DST。在所有數據集和設置中,S3-DST始終優於最先進技術,展示了它在下一代基於LLM的聊天系統中的效力和韌性。
在基於語言建模的音樂生成中,生成的波形由一系列階層式的標記堆棧表示,可以根據代碼本模式以自回歸方式或並行方式進行解碼。具體來說,將代碼本扁平化代表了最高質量的解碼策略,但也以解碼速度緩慢而聞名。為此,我們提出了一種新穎的堆棧延遲式解碼策略,以改進扁平模式解碼,生成速度比普通扁平解碼快四倍。這將推斷時間接近延遲解碼策略的水準,並允許在小批量情況下在 GPU 上進行更快的推斷。在與延遲模式相同的推斷效率預算下,我們展示了所提出的方法在客觀評估中表現更好,幾乎在質量方面與扁平模式拉近了差距。主觀評估證實了這些結果,顯示新模型生成的樣本在相同文本提示下更受偏好,相對於競爭模型生成的樣本。
模型適應對處理代理訓練數據與實際用戶數據之間的差異至關重要。為了有效進行適應,通常將用戶的文本數據存儲在服務器或其本地設備上,從而可以直接使用這些領域內數據對下游自然語言處理(NLP)模型進行訓練。然而,這可能會引發隱私和安全問題,因為將用戶信息暴露給對手的風險增加。最近開展了將文本數據中的識別信息替換為通用標記的研究。在這項工作中,我們利用大型語言模型(LLMs)來建議遮罩標記的替代詞,並對其在下游語言建模任務中的有效性進行評估。具體而言,我們提出了多種基於預訓練和微調的LLM方法,並對各種數據集進行實證研究以比較這些方法。實驗結果表明,在混淆語料庫上訓練的模型能夠達到與在原始數據上訓練的模型相當的性能,而無需保護隱私的標記遮罩。
本文提出了一種創新的方法,通過在模型訓練期間強調音頻和文本表示之間的對齊來增強對音頻生成的控制。在基於語言模型的音頻生成背景下,該模型利用來自文本和音頻令牌表示的輸入來預測後續的音頻令牌。然而,目前的配置缺乏明確的正則化來確保所選文本表示和語言模型預測之間的對齊。我們的提議涉及音頻和文本表示的正則化,特別是在無分類器指導(CFG)階段,其中在語言模型訓練期間排除了文本條件的交叉注意力。此提議的表示正則化旨在最小化音頻和文本相似性與同一訓練批次中其他樣本之間的差異。音樂和音頻生成任務的實驗結果表明,我們提出的方法導致了音頻和音樂生成的客觀指標的改善,以及對音頻生成的人類感知的增強。
口語語義解析(SSP)涉及從語音輸入生成機器可理解的解析。訓練強大的模型以應用於現有訓練數據中表示的應用領域,或擴展到新領域,需要相應的語音-轉錄-語義解析數據三元組,這是昂貴的。本文通過研究可以使用轉錄-語義解析數據(未配對文本)而無需相應語音的方法來應對這一挑戰。首先,當未配對文本來自現有文本語料庫時,比較了聯合音頻文本(JAT)和文本轉語音(TTS)作為為未配對文本生成語音表示的方法。對STOP數據集的實驗表明,現有和新領域的未配對文本分別使性能提高了2%和30%的絕對準確度(EM)。其次,考慮當現有文本語料庫中沒有未配對文本的情況。我們建議提示大型語言模型(LLMs)生成現有和新領域的未配對文本。實驗表明,與意圖同時出現的示例和單詞可用於使用Llama 2.0生成未配對文本。將生成的文本與JAT和TTS一起用於口語語義解析可使現有和新領域的STOP EM分別提高1.4%和2.6%的絕對準確度。