每日精選AI研究論文及翻譯
語言模型(LMs)是自然語言處理的強大工具,但當它們較小時,通常難以產生連貫和流暢的文本。具有約125M參數的模型,如GPT-Neo(小型)或GPT-2(小型),即使經過大量訓練,也很少能生成超出幾個詞的連貫和一致的英文文本。這引發了一個問題,即是否只有在更大規模(數億參數或更多)和複雜架構(具有多層全局關注)下,才會出現產生連貫英文文本的能力。 在這項工作中,我們介紹TinyStories,這是一個由GPT-3.5和GPT-4生成的短故事的合成數據集,其中僅包含典型3至4歲兒童通常理解的單詞。我們展示了TinyStories可以用於訓練和評估比最先進模型小得多(總參數少於1000萬)或具有更簡單架構(僅有一個變壓器塊)的LMs,但仍能生成流暢和一致的故事,這些故事有幾段,內容多樣,幾乎完美的語法,並展示了推理能力。 我們還提出了一種評估語言模型的新範式:我們提出一個框架,使用GPT-4來評分這些模型生成的內容,就像這些是學生寫的故事,由(人類)老師評分一樣。這種新範式克服了標準基準的缺陷,後者通常要求模型的輸出非常結構化,並且為模型提供多維度的分數,為不同能力(如語法、創造力和一致性)提供分數。 我們希望TinyStories可以促進LMs的開發、分析和研究,特別是對於資源匱乏或專業領域,並揭示LMs語言能力的出現。
我們提出了SoundStorm,一種用於高效、非自回歸音頻生成的模型。SoundStorm的輸入是AudioLM的語義標記,並依賴雙向注意力和基於信心的平行解碼,以生成神經音頻編解碼器的標記。相較於AudioLM的自回歸生成方法,我們的模型在相同音質下,具有更高的語音和聲學條件一致性,同時速度快了兩個數量級。在TPU-v4上,SoundStorm在0.5秒內生成30秒的音頻。我們展示了我們的模型通過合成高質量、自然對話片段,可以將音頻生成擴展到更長的序列,只需提供帶有演講者轉換標註和簡短提示的文本。
最近的研究表明,在暗網和表層網之間使用的語言存在明顯差異。由於對暗網的研究通常需要對領域進行文本分析,專門用於暗網的語言模型可能為研究人員提供寶貴的見解。在這項工作中,我們介紹了DarkBERT,這是一個在暗網數據上預訓練的語言模型。我們描述了用於訓練DarkBERT的文本數據的過濾和編譯步驟,以應對暗網的極端詞彙和結構多樣性,這可能有損於建立對該領域的正確表示。我們評估了DarkBERT及其原始對照模型以及其他廣泛使用的語言模型,以驗證暗網領域特定模型在各種用例中提供的好處。我們的評估顯示,DarkBERT優於當前的語言模型,可能成為未來暗網研究的寶貴資源。
最近的人工智慧(AI)系統已經在從圍棋到蛋白質折疊等“重大挑戰”中取得了里程碑式的成就。擁有檢索醫學知識、進行推理並對醫學問題進行回答的能力長期以來一直被視為這樣一個重大挑戰之一。 大型語言模型(LLMs)已經催生了醫學問答方面的重大進展;Med-PaLM是第一個在MedQA數據集上以67.2%的分數超過“及格”分數的模型,符合美國醫學執照考試(USMLE)風格問題。然而,這項工作以及其他先前的工作表明,有很大的改進空間,特別是當模型的答案與臨床醫生的答案進行比較時。在這裡,我們介紹了Med-PaLM 2,通過利用基礎LLM改進(PaLM 2)、醫學領域微調以及提示策略,包括一種新的集成精煉方法,來彌合這些差距。 Med-PaLM 2在MedQA數據集上取得了高達86.5%的分數,比Med-PaLM提高了超過19%,創立了新的最先進技術。我們還觀察到在MedMCQA、PubMedQA和MMLU臨床主題數據集中,性能接近或超過了最先進技術。 我們對與臨床應用相關的長篇問題進行了詳細的人類評估。在對1066個消費者醫學問題進行兩兩比較排名時,醫生們在與臨床效用相關的九個軸中有八個軸上更喜歡Med-PaLM 2的答案,而非其他醫生的答案(p < 0.001)。我們還觀察到,在新引入的240個長篇“對抗性”問題數據集上,與Med-PaLM相比,在每個評估軸上都有顯著的改進(p < 0.001),以探究LLM的局限性。 雖然進一步的研究有必要驗證這些模型在現實世界中的有效性,但這些結果突顯了在醫學問答方面朝著與醫生水平性能迅速進展的情況。
在廣泛源代碼上預訓練的大型語言模型(LLMs)在代碼智能方面取得了顯著進展。然而,現有的代碼LLMs在架構和預訓練任務方面存在兩個主要限制。首先,它們通常採用特定架構(僅編碼器或僅解碼器)或依賴統一的編碼器-解碼器網絡進行不同下游任務。前者範式受到應用中的不靈活性的限制,而在後者中,模型被視為所有任務的單一系統,導致在某些任務的子優異表現。其次,它們通常採用有限的預訓練目標集,這些目標可能與某些下游任務無關,因此導致顯著的性能下降。為了解決這些限制,我們提出了“CodeT5+”,一系列針對代碼的編碼器-解碼器LLMs,其中組件模塊可以靈活組合以適應各種下游代碼任務。這種靈活性是通過我們提出的混合預訓練目標來實現的,以減輕預訓練-微調差異。這些目標涵蓋了跨度去噪、對比學習、文本-代碼匹配和因果LM預訓練任務,涵蓋了單模和雙模多語言代碼語料庫。此外,我們建議使用凍結的現成LLMs初始化CodeT5+,而無需從頭開始訓練,以有效擴展我們的模型,並探索指令調整以與自然語言指令對齊。我們在不同設置下對CodeT5+進行了廣泛評估,包括零-shot、微調和指令調整。我們觀察到在各種代碼相關任務上的最新模型表現,例如代碼生成和完成、數學編程以及文本到代碼檢索任務。特別是,我們調整指令的CodeT5+ 16B在HumanEval代碼生成任務上取得了新的最新模型結果,超越其他開放代碼LLMs。
大型語言模型(LLMs)如 GPT-3 和 GPT-4 非常強大,但它們的權重通常不公開,且龐大的尺寸使這些模型難以使用常見硬體進行調整。因此,有效地使用大規模監督數據調整這些模型可能具有挑戰性。作為替代方案,基於上下文的學習(ICL)由於上下文長度限制,只能使用少量監督範例。在本文中,我們提出了超級基於上下文的學習(SuperICL),它允許黑盒LLMs與本地微調的較小模型合作,從而在監督任務上實現卓越性能。我們的實驗表明,SuperICL 可以提高性能,超越最先進的微調模型,同時解決基於上下文學習的不穩定問題。此外,SuperICL 可以增強較小模型的能力,如多語言性和可解釋性。
基於文本引導的人體動作生成引起了廣泛關注,因為它在動畫和機器人技術等領域具有重要應用。最近,擴散模型在動作生成中的應用使生成動作的質量得到了提升。然而,現有方法受制於對相對較小規模的運動捕捉數據的依賴,導致在更多樣化的自然環境中表現不佳。本文介紹了一種名為Make-An-Animation的文本條件人體動作生成模型,該模型從大規模圖像文本數據集中學習更多樣化的姿勢和提示,從而在性能上顯著優於先前的工作。Make-An-Animation訓練分為兩個階段。首先,我們在從圖像文本數據集中提取的(文本,靜態虛擬姿勢)對的精選大規模數據集上進行訓練。其次,我們在運動捕捉數據上進行微調,添加額外的層來建模時間維度。與先前用於運動生成的擴散模型不同,Make-An-Animation使用類似於最近的文本到視頻生成模型的U-Net架構。對動作真實性和與輸入文本的對齊的人類評估表明,我們的模型在文本到動作生成方面達到了最先進的性能水平。
擴散模型因其卓越的表現而在圖像生成領域引起了相當大的關注。最近,它們的成功已擴展到文本生成,通過同時生成序列中的所有標記。然而,自然語言相較於圖像展現出更為明顯的順序依賴性,且現有的大多數語言模型是使用從左到右的自回歸方法進行訓練。為了應對自然語言固有的順序特性,我們引入了自回歸擴散(AR-Diffusion)。AR-Diffusion確保右側標記的生成取決於左側生成的標記,這是通過使用根據標記位置變化的動態去噪步驟數來實現的機制。這導致左側的標記經歷的去噪步驟比右側的少,從而使它們能夠更早生成,並隨後影響右側標記的生成。在包括文本摘要、機器翻譯和常識生成在內的各種文本生成任務的一系列實驗中,AR-Diffusion明顯展示了優於現有擴散語言模型的優越性,並且在實現可比較的結果時可以快100倍至600倍。我們的代碼將會公開發布。
我們提出符號微調 - 在上下文輸入-標籤對上微調語言模型,其中自然語言標籤(例如,“正面/負面情感”)被任意符號(例如,“foo/bar”)取代。符號微調利用這樣的直覺,即當模型無法使用指示或自然語言標籤來理解任務時,必須透過學習輸入-標籤映射來實現。 我們在 Flan-PaLM 模型上進行符號微調實驗,涵蓋高達 540B 參數,觀察到在各種設置下的好處。首先,符號微調提升了在看不見的上下文學習任務上的表現,對於指示不足或沒有自然語言標籤的提示更加強健。其次,經符號微調的模型在算法推理任務上表現更為強勁,在列表功能基準測試中表現提升高達 18.2%,在簡單圖靈概念基準測試中表現提升高達 15.3%。最後,經符號微調的模型在跟隨上下文中呈現的翻轉標籤方面有顯著改善,這意味著它們更能夠利用上下文信息來覆蓋先前的語義知識。
一個對話式推薦系統(CRS)通過實時多輪對話使用戶能夠與系統互動,從而提供更高的透明度和控制權。最近,大型語言模型(LLMs)展示了與世界知識和常識推理相結合的自然對話能力,開啟了這一範式的潛力。然而,在 CRS 內有效地利用 LLMs 會引入新的技術挑戰,包括正確理解和控制複雜對話以及從外部信息來源檢索。這些問題受到大型、不斷發展的項目語料庫和缺乏用於訓練的對話數據的加劇。在本文中,我們提供了一個使用 LLMs 構建端到端大規模 CRS 的路線圖。具體而言,我們提出了用於用戶偏好理解、靈活對話管理和可解釋推薦的新實現,作為由 LLMs 驅動的集成架構的一部分。為了改善個性化,我們描述了一個 LLM 如何消化可解釋的自然語言用戶檔案並將其用於調節會話級上下文。為了克服在缺乏現有生產 CRS 的情況下的對話數據限制,我們提出了建立可控 LLM 為基礎的用戶模擬器的技術,以生成合成對話。作為概念證明,我們介紹了 RecLLM,一個基於 LaMDA 的 YouTube 視頻大規模 CRS,並通過一些說明性示例對話展示了其流暢性和多樣功能性。
在上下文學習中,預先訓練的語言模型從任務示例和上下文中的指示學習執行任務的方法,在自然語言處理社區中引起了很大的關注。然而,由於語言模型並未明確訓練以在上下文中學習,因此尚未充分發揮上下文學習的能力。為此,我們提出了PICL(用於上下文學習的預訓練),這是一個框架,通過在通用純文本語料庫上使用簡單的語言建模目標預先訓練模型來增強語言模型的上下文學習能力。PICL鼓勵模型在保持預先訓練模型任務泛化的情況下,通過對上下文進行條件化來推斷和執行任務。我們在七個廣泛使用的文本分類數據集和包含100多個自然語言處理任務的Super-NaturalInstrctions基準上評估了使用PICL訓練的模型的上下文學習性能,這些任務被制定為文本生成。我們的實驗表明,PICL比一系列基準線更有效且具有任務泛化能力,性能優於具有近4倍參數的更大語言模型。代碼可在https://github.com/thu-coai/PICL 上公開獲取。
對於數位內容創作,一個完全自動化的物體重建流程至關重要。儘管3D重建領域已經取得了深刻的發展,但為了獲得乾淨的物體模型,仍然依賴不同形式的人工勞動,如邊界框標記、遮罩註釋和網格操作等。本文提出了一個名為AutoRecon的新型框架,用於從多視角影像中自動發現和重建物體。我們展示了如何通過利用自監督2D視覺Transformer特徵,從SfM點雲中強健地定位和分割前景物體。然後,我們通過分解的點雲提供的密集監督,重建神經場景表示,實現準確的物體重建和分割。在DTU、BlendedMVS和CO3D-V2數據集上的實驗證明了AutoRecon的有效性和穩健性。
為了確保 AI 安全,獲取大型通用語言模型的人類可解釋性解釋是一個迫切的目標。然而,同樣重要的是,我們的可解釋性方法要忠實於模型行為背後的因果動力學,並能夠穩健地推廣到未見過的輸入。分佈式對齊搜索(DAS)是一種強大的梯度下降方法,基於一種揭示可解釋符號算法與為特定任務微調的小型深度學習模型之間完美對齊的因果抽象理論。在本文中,我們通過用學習參數取代剩餘的暴力搜索步驟,顯著擴展了 DAS,這種方法被稱為 DAS。這使我們能夠在大型語言模型中高效地搜索可解釋的因果結構,同時它們遵循指令。我們將 DAS 應用於 Alpaca 模型(7B 參數),該模型可以解決一個簡單的數值推理問題。通過 DAS,我們發現 Alpaca 通過實現一個具有兩個可解釋布爾變量的因果模型來完成這一任務。此外,我們發現神經表示與這些變量的對齊對於輸入和指令的變化是穩健的。這些發現標誌著深入了解我們最大型且被廣泛部署的語言模型內部運作的第一步。
自然語言界面通常需要監督數據,將用戶的請求翻譯為程序、數據庫查詢或其他結構化意圖表示。在數據收集過程中,很難預測並正式化用戶需求的全部範圍 -- 例如,在一個旨在處理簡單請求(如找出明天的會議或將我與經理的會議改到中午)的系統中,用戶也可能表達更複雜的請求(如交換星期一和星期二的所有通話)。我們介紹了一種方法,通過分層自然語言分解過程,使簡單的語言轉代碼模型能夠處理複雜的發話。我們的方法使用預訓練語言模型將複雜的發話分解為一系列較小的自然語言步驟,然後使用語言轉代碼模型解釋每個步驟。為了測試我們的方法,我們收集並發布了 DeCU -- 一個新的 NL-to-program 基準測試集,用於評估複雜發話的分解。實驗表明,所提出的方法能夠幾乎不需要複雜的訓練數據即可解釋複雜的發話,同時優於標準的少樣本提示方法。
對比學習已成為學習多模態表示的有效框架。在這個領域的開創性工作CLIP通過使用對比損失在配對的圖像-文本數據上進行訓練,取得了令人印象深刻的成果。最近的研究聲稱利用從自監督學習中獲得靈感的額外非對比損失,比CLIP取得了改進。然而,有時很難將這些額外損失對模型訓練中使用的其他實施細節(例如數據增強或正則化技術)的貢獻與其分開。為了闡明這一問題,本文首先提出、實施並評估了通過將對比學習與最近自監督學習的進展相結合獲得的幾個基準線。具體而言,我們使用已被證明對視覺自監督學習成功的損失函數來對齊圖像和文本模態。我們發現這些基準線優於基本的CLIP實現。然而,當應用更強的訓練配方時,這種優勢就消失了。事實上,我們發現一個簡單的CLIP基準線也可以顯著改進,最多可在下游零樣本任務上提高25%的相對改進,方法是使用在其他子領域中流行的眾所周知的訓練技術。此外,我們發現只需應用圖像和文本增強即可彌補先前工作所獲得的大部分改進。通過我們改進的CLIP訓練配方,我們在四個標準數據集上實現了最先進的性能,並且在簡化設計的同時始終優於先前的工作(在最大數據集上最多提高了+4%),
最近在多模態預訓練方法方面取得的進展展示了在三維表示學習中對齊跨越三維模態、其二維對應模態和相應語言模態的特徵,具有潛在的有效性。然而,現有多模態預訓練框架用於為三維應用收集多模態數據的方法缺乏可擴展性和全面性,可能限制了多模態學習的全部潛力。主要瓶頸在於語言模態的可擴展性和全面性。為了解決這一瓶頸,我們引入了ULIP-2,一個多模態預訓練框架,利用最先進的多模態大型語言模型(LLMs)預先訓練了豐富知識,自動生成三維物體的整體語言對應物。我們在兩個大型數據集Objaverse和ShapeNet55上進行實驗,並發布我們生成的三模態三元組數據集(三維點雲 - 圖像 - 語言),名為"ULIP-Objaverse三元組"和"ULIP-ShapeNet三元組"。ULIP-2僅需要三維數據本身,消除了任何手動標註工作的需求,展示了其可擴展性;ULIP-2在ModelNet40上實現了顯著的零樣本分類改進(74%頂部1準確度)。此外,ULIP-2在現實世界的ScanObjectNN基準測試中創下了新紀錄(91.5%總體準確度),同時僅利用140萬參數(比當前最先進技術少10倍),標誌著在沒有人工標註的情況下實現可擴展的多模態三維表示學習的突破。代碼和數據集可在https://github.com/salesforce/ULIP 上獲得。
大型語言模型(LLMs)在自然語言處理方面取得了顯著進展,但隨著規模的擴大,它們面臨著計算成本和效率方面的挑戰,尤其是在特定領域任務中。另一方面,小型語言模型(SLMs)在這些任務中常因容量和訓練數據有限而遇到困難。本文介紹了一種名為Dr. LLaMA的方法,通過使用LLMs進行生成式數據擴充來改善SLMs,在醫學問答任務和PubMedQA數據集上進行研究。我們的研究結果表明,LLMs能夠有效地改進和豐富現有的問答對,從而在微調後使規模小得多的模型在特定領域的問答數據集上表現得更好。本研究突顯了使用LLMs進行特定領域問答的挑戰,並提出了潛在的研究方向來應對這些限制,最終旨在為專業應用創造更高效、更有能力的模型。我們還提供了我們的代碼,供有興趣的研究人員使用。
遮罩語言模型(MLMs)已被證實對於自動語音識別(ASR)系統中的二次重評分非常有效。在這項研究中,我們提出了遮罩音訊文本編碼器(MATE),這是一種多模態遮罩語言模型重評分器,將聲學表示整合到MLM的輸入空間中。我們採用對比學習來有效地對齊模態,通過學習共享表示。我們展示了使用多模態重評分器對於當目標領域數據不可用時的ASR系統領域泛化是有益的。MATE在領域內可將字錯誤率(WER)降低4%-16%,在領域外數據集上可降低3%-7%,相較於僅使用文本的基準線。此外,僅使用非常有限的訓練數據(0.8小時),MATE在第一遍通過基準線上實現WER降低8%-23%。
最近的研究顯示,使用句級別翻譯排序任務訓練的雙編碼模型是跨語言句子嵌入的有效方法。然而,我們的研究表明,在多語境情況下,令牌級別的對齊也是至關重要的,這在先前尚未得到充分探索。根據我們的發現,我們提出了一個雙對齊預訓練(DAP)框架,用於跨語言句子嵌入,該框架結合了句級別和令牌級別的對齊。為了實現這一目標,我們引入了一個新的表示翻譯學習(RTL)任務,模型學習使用單邊上下文化的令牌表示來重建其翻譯對應物。這種重建目標鼓勵模型將翻譯信息嵌入到令牌表示中。與其他令牌級別對齊方法(如翻譯語言建模)相比,RTL 更適用於雙編碼架構,並且在計算上更有效。對三個句級跨語言基準上的大量實驗表明,我們的方法可以顯著改善句子嵌入。我們的程式碼可在 https://github.com/ChillingDream/DAP 找到。
儘管最大的語言模型取得了前所未有的成功,但它們仍然會犯錯。與人類透過反饋學習和改進相似,先前的研究提出為語言模型提供自然語言反饋,以引導它們修正輸出。由於人類生成的評論很昂貴,研究人員提出了學習評論生成器的方法,以取代人類評論家,同時假設可以訓練下游模型利用生成的反饋。然而,這種方法不適用於黑盒或有限訪問權限的模型,例如ChatGPT,因為它們無法進行微調。此外,在大型通用語言代理的時代,微調既不具備計算效率,也不具備空間效率,因為這將導致網絡的多個副本。在這項工作中,我們介紹了RL4F(Reinforcement Learning for Feedback),這是一個多智能體協作框架,其中評論生成器被訓練以最大化GPT-3的最終任務表現,GPT-3是一個固定模型,其大小超過200倍。RL4F生成的評論有助於GPT-3修改其輸出。我們研究了三個用於行動計劃、摘要和字母排序的數據集,並展示了在所有三個任務中相對於強基線的多個文本相似性指標上的改進(平均約5%)。
本文提出了一種新穎的方法,用於使用語言模型檢測ChatGPT生成的文本與人類撰寫的文本。為此,我們首先收集並釋出了一個名為OpenGPTText的預處理數據集,其中包含使用ChatGPT生成的重新編寫內容。然後,我們設計、實施並訓練了兩種不同的文本分類模型,分別使用了Robustly Optimized BERT Pretraining Approach(RoBERTa)和Text-to-Text Transfer Transformer(T5)。我們的模型取得了卓越的結果,在測試數據集上的準確率超過了97%,通過各種指標進行評估。此外,我們進行了一項可解釋性研究,展示了我們的模型提取和區分人類撰寫和ChatGPT生成文本之間的關鍵特徵的能力。我們的研究結果提供了有關有效使用語言模型來檢測生成文本的重要見解。