每日精選AI研究論文及翻譯
近期的研究集中在通過模仿學習來增強較小模型的能力,利用大型基礎模型(LFMs)生成的輸出。許多問題影響了這些模型的質量,從淺層LFM輸出中有限的模仿信號;小規模同質訓練數據;以及尤其是缺乏嚴格的評估,導致高估小模型的能力,因為它們傾向於學習模仿風格,而非LFMs的推理過程。為了應對這些挑戰,我們開發了Orca(我們正在與我們的法律團隊合作,根據LLaMA的發布政策公開發布模型權重的diff,將在https://aka.ms/orca-lm上發布),這是一個擁有130億參數的模型,學習模仿LFMs的推理過程。Orca從GPT-4獲取豐富的信號,包括解釋蹤跡;逐步思考過程;和其他複雜指令,並在ChatGPT的教師協助下進行引導。為了促進這種漸進式學習,我們利用大規模和多樣化的模仿數據進行慎重的抽樣和選擇。Orca在複雜的零-shot推理基準測試中,如Big-Bench Hard(BBH)上比Vicuna-13B等傳統最先進的指令調整模型提高了100%以上,並在AGIEval上提高了42%。此外,Orca在BBH基準測試中達到了與ChatGPT的平等水平,在專業和學術考試中(如SAT、LSAT、GRE和GMAT)的零-shot設置中,沒有CoT,並在優化系統消息方面落後於GPT-4。我們的研究表明,從逐步解釋中學習,無論這些是由人類還是更高級的AI模型生成的,都是改進模型能力和技能的一個有前途的方向。
大型語言模型通常是在經過篩選的網絡數據和精心策劃的高質量語料庫上進行訓練,這些語料庫包括社交媒體對話、書籍或技術論文。人們認為這種策劃過程對於生成具有廣泛零-shot泛化能力的高性能模型是必要的。然而,隨著需要在數萬億令牌上預訓練的更大型模型的出現,目前還不清楚策劃的可擴展性如何,以及我們是否很快就會耗盡獨特的高質量數據。與以往的觀點相反,我們展示出僅經過適當篩選和去重的網絡數據就能產生強大的模型;甚至在性能上明顯優於基於The Pile訓練的最新模型。儘管經過了大量篩選,我們從網絡中提取的高質量數據仍然十分豐富,我們能夠從CommonCrawl獲取五萬億令牌。我們公開發布了我們的RefinedWeb數據集中的6000億令牌提取內容,以及在此基礎上訓練的1.3/7.5B參數語言模型。
最近的「Segment Anything Model」(SAM)代表了在擴展分割模型方面的一大飛躍,使其具有強大的零樣本能力和靈活的提示功能。儘管SAM是通過訓練11億個遮罩來訓練的,但在許多情況下,SAM的遮罩預測質量仍然不足,特別是在處理結構複雜的物體時。我們提出了HQ-SAM,為SAM配備了準確分割任何對象的能力,同時保持SAM的原始提示設計、效率和零樣本泛化能力。我們精心設計,重複使用和保留了SAM的預訓練模型權重,僅引入了最少的額外參數和計算。我們設計了一個可學習的高質量輸出標記,將其注入到SAM的遮罩解碼器中,負責預測高質量的遮罩。我們不僅將其應用於遮罩解碼器特徵,還首先將其與早期和最終的ViT特徵融合,以改善遮罩細節。為了訓練我們引入的可學習參數,我們組成了一個包含來自多個來源的4.4萬個精細遮罩的數據集。HQ-SAM僅在引入的4.4萬個遮罩數據集上進行訓練,僅需8個GPU,僅需4小時。我們展示了HQ-SAM在9個不同下游任務的多個分割數據集中的有效性,其中有7個是通過零樣本轉移協議進行評估。我們的代碼和模型將在https://github.com/SysCV/SAM-HQ 上發布。
我們提出了LLM-Blender,一個整合框架,旨在通過利用多個開源大型語言模型(LLMs)的多樣優勢,實現始終優異的性能。我們的框架包括兩個模塊:PairRanker和GenFuser,解決了對不同示例最優LLMs可能存在顯著差異的觀察。PairRanker採用專門的成對比較方法來區分候選輸出之間的細微差異。它聯合編碼輸入文本和一對候選輸出,使用交叉注意力編碼器來確定優越者。我們的結果表明,PairRanker與基於ChatGPT的排名具有最高的相關性。接著,GenFuser旨在合併排名靠前的候選輸出,通過利用它們的優勢並減輕它們的弱點,生成一個改進的輸出。為了促進大規模評估,我們引入了一個基準數據集MixInstruct,這是多個指令數據集的混合,具有oracle成對比較。我們的LLM-Blender在各種指標上顯著優於單個LLMs和基準方法,確立了實質性的性能差距。
大型語言模型(LLMs)是指令跟隨者,但對於不同情況找到最佳指令可能會有挑戰,尤其是對於禁止反向傳播的黑盒LLMs。我們不直接優化離散指令,而是優化一個低維度的軟提示,應用於開源LLM以生成黑盒LLM的指令。在所提出的方法InstructZero的每個迭代中,將軟提示轉換為指令,使用開源LLM,然後將其提交給黑盒LLM進行零樣本評估,並將性能發送到貝葉斯優化以生成改進零樣本性能的新軟提示。我們在不同組合的開源LLMs和API上對InstructZero進行評估,包括Vicuna和ChatGPT。我們的結果顯示,在各種下游任務中,InstructZero優於SOTA自動指令方法。我們的程式碼和數據可在https://github.com/Lichang-Chen/InstructZero 公開獲取。
語言模型(LMs)常常表現出不良的文本生成行為,包括生成虛假、有毒或無關的輸出。最近,從人類反饋中進行強化學習(RLHF)已顯示出在解決這些問題方面具有潛力。然而,這種整體性反饋對於長文本輸出傳遞的信息有限;它並不指示輸出的哪些方面影響了用戶的偏好;例如,哪些部分包含了哪些類型的錯誤。在本文中,我們使用精細的人類反饋(例如,哪個句子是虛假的,哪個子句是無關的)作為明確的訓練信號。我們引入了Fine-Grained RLHF,這是一個框架,可以實現對兩個方面細粒度的獎勵函數進行訓練和學習:(1)密度,即在生成每個片段(例如一個句子)後提供獎勵;以及(2)整合與不同反饋類型相關的多個獎勵模型(例如,事實不正確、無關和信息不完整)。我們在去毒化和長文問答方面進行實驗,以說明使用這種獎勵函數進行學習如何提高性能,並得到自動和人工評估的支持。此外,我們展示了可以使用不同組合的精細獎勵模型來定制LM的行為。我們在https://FineGrainedRLHF.github.io 上發布了所有數據、收集的人類反饋和代碼。
差異隱私(DP)訓練方法,如DP-SGD,可以通過確保機器學習模型不會洩露私人信息來保護敏感訓練數據。本文研究的另一種方法是使用敏感數據集生成新的合成數據集,該數據集相對於原始數據是具有差異隱私性的。這樣做有幾個優點:合成數據可以用於其他任務(包括超參數調整),可以無限期保留,或與第三方共享而無需犧牲隱私。 然而,獲取差異隱私數據比在訓練過程中引入差異隱私要困難得多。為了使其對文本可行,最近的研究利用公共數據,從預訓練的生成式語言模型開始,並在敏感數據上進行私人微調。這個模型可以用於抽樣差異隱私合成數據集。儘管這種策略看似簡單,但實施起來卻存在問題。先前的方法要麼顯示出顯著的性能損失,要麼像我們展示的那樣存在關鍵的設計缺陷。 在本文中,我們展示了一個適當的訓練目標以及調整較少的參數將產生出色的差異隱私合成數據質量。我們的方法在下游任務的性能方面與直接進行差異隱私訓練的下游分類器相媲美。我們還展示了我們的差異隱私合成數據不僅對下游分類器訓練有用,還可用於調整這些相同的模型。
最近釋出的ChatGPT模型展示了在零樣本問答方面前所未有的能力。在這項研究中,我們探究了ChatGPT的對話理解能力,並引入了一個未來研究中可採用的對話框架(協議)。Pokémon宇宙作為ChatGPT推理能力的審計理想測試場所,因為其具有封閉世界假設。在揭示ChatGPT對Pokémon宇宙的背景知識後,我們測試了其在戰鬥情境中應用這些概念的推理過程。然後評估其獲取新知識並將其納入推理過程的能力。我們的最終目標是評估ChatGPT的泛化能力,結合特徵,並從人類反饋中獲取和推理新引入的知識。我們發現ChatGPT對Pokemon宇宙有先驗知識,在戰鬥情境中可以相當程度地進行推理,即使引入新信息。該模型在合作反饋下表現更好,如果有信息檢索的初始階段,但有時也會出現幻覺,並容易受到對抗性攻擊的影響。
基於靜態輸入和輸出對大型語言模型(LLMs)進行評估的標準方法對於開發助手是不足夠的:這種評估方式未能考慮到在其部署中的基本互動元素,因此限制了我們對語言模型能力的理解。我們介紹了CheckMate,這是一個適應性強的原型平台,供人們與LLMs進行互動和評估。我們使用CheckMate進行了一項研究,評估了三個語言模型(InstructGPT、ChatGPT和GPT-4)作為助手在證明本科水平數學方面的表現,參與者包括從本科生到數學教授的混合群體。我們釋出了由此產生的互動和評分數據集MathConverse。通過分析MathConverse,我們歸納出了人類行為的初步分類,並發現儘管一般上存在積極相關性,但在LLM生成中存在明顯的正確性與感知幫助性之間的分歧等發現。此外,我們通過一系列由專家數學家提供的案例研究,識別了GPT-4在數學推理中的有用情景和現有問題。我們最終得出了對機器學習從業者和數學家的可行建議:能夠傳達不確定性、對用戶更正做出良好反應、更易解釋和簡潔的模型可能構成更好的助手;互動式評估是持續了解這些模型能力的一種有前途的方式;人們應該意識到語言模型的代數性錯誤性,並因此識別應該使用它們的場景。
大型語言模型(LLMs)最近取得的成功代表著人工通用智能邁出了令人印象深刻的一步。它們展示了在用戶指令下自動完成任務的潛力,充當類似大腦的協調者。隨著我們將越來越多的任務委派給機器進行自動完成,相應的風險將會浮出水面。一個重要問題浮現:當幫助人類自動化任務作為個人副駕駛員時,我們如何使機器表現出負責任的行為?在本文中,我們從可行性、完整性和安全性的角度深入探討這個問題。具體而言,我們提出了負責任任務自動化(ResponsibleTA)作為一個基本框架,以促進基於LLM協調者和執行者之間負責任的任務自動化合作,具備三項增強功能:1)預測執行者命令的可行性;2)驗證執行者的完整性;3)增強安全性(例如,保護用戶隱私)。我們進一步提出並比較了實現前兩項功能的兩種範式。一種是通過提示工程利用LLMs本身的通用知識,另一種是採用特定領域的可學習模型。此外,我們引入了一種本地記憶機制來實現第三項功能。我們在UI任務自動化上評估了我們提出的ResponsibleTA,並希望它能引起更多關注,確保LLMs在各種場景中更加負責任。研究項目主頁位於https://task-automation-research.github.io/responsible_task_automation。
觀察到全景、語義和實例分割任務之間密切的關係,我們提出訓練通用多數據集多任務分割模型:DaTaSeg。我們為所有任務使用共享表示(具有類別預測的遮罩提議)。為了應對任務差異,我們採用不同的合併操作和後處理方式來處理不同的任務。我們還利用弱監督,使我們的分割模型能夠從更便宜的邊界框標註中受益。為了跨數據集共享知識,我們使用與分類器相同的語義嵌入空間中的文本嵌入,並在數據集之間共享所有網絡參數。我們在ADE語義、COCO全景和Objects365檢測數據集上訓練DaTaSeg。DaTaSeg在所有數據集上提高了性能,特別是在小規模數據集上,實現了ADE語義的54.0 mIoU和COCO全景的53.5 PQ。DaTaSeg還實現了對ADE全景和Objects365實例分割的弱監督知識轉移。實驗表明,DaTaSeg隨著訓練數據集的增加而擴展,並通過直接轉移實現了開放詞彙的分割。此外,我們標註了一組包含1,000張圖像的Objects365實例分割集,並將其作為公共基準發布。
利用大型語言模型(LLMs)來解決數學問題是一個引人入勝的研究領域,考慮到在眾多科學和工程領域中以自然語言表達的豐富數學問題。雖然先前有幾項研究探討使用LLMs解決基礎數學問題,但本研究探索了使用GPT-4解決更複雜和具有挑戰性的數學問題的前沿。我們評估了多種使用GPT-4的方法。其中一些是從現有工作中改編而來,另一個是\MathChat,這是本研究中新提出的一個對話式問題解決框架。我們在MATH數據集中的困難高中競賽問題上進行評估,顯示了所提出的對話式方法的優勢。
基於Transformer的語言模型已經被廣泛應用在許多不同領域,需要處理越來越長的序列。對於這些應用,因果自注意力成為一個核心關注點,因為它是唯一一個隨著序列長度呈二次方擴展的組件。雖然許多研究提出了稀疏化注意力模式並減少自注意力的計算負擔的方案,但這些方案通常受到實現問題的限制,最終導致在注意力矩陣上實施簡單且靜態的結構。相反,實現更動態的稀疏注意力通常會導致運行時間顯著慢於使用Dao等人(2022年)的Flash實現計算完整注意力。我們擴展了FlashAttention以容納一大類注意力稀疏模式,特別包括鍵/查詢丟棄和基於哈希的注意力。這導致實現沒有計算複雜度開銷,並在FlashAttention的基礎上實現多倍的運行時加速。即使在相對較低的稀疏度下,我們的方法隨著序列長度的增加,在FlashAttention的基礎上有顯著改進。在不犧牲困惑度的情況下,我們將Transformer語言模型的訓練速度分別提高了2.0倍和3.3倍,適用於8k和16k令牌的序列。
我們對大型語言模型進行現實檢驗,並檢視檢索增強語言模型的潛力。這些語言模型是半參數的,模型整合模型參數和來自外部數據源的知識來進行預測,與普通大型語言模型的參數化性質相對。我們提出初步的實驗結果,顯示半參數架構可以透過視圖、查詢分析器/規劃器和出處等方式進行增強,從而打造一個在準確性和效率方面顯著更強大的系統,潛在地適用於問答等其他自然語言處理任務。