每日精選AI研究論文及翻譯
我們介紹了 PaLM 2,一款新的最先進語言模型,具有更好的多語言和推理能力,並且比其前身 PaLM 更節省計算資源。PaLM 2 是一個基於 Transformer 的模型,使用多種目標進行訓練。通過對英語和多語言語言以及推理任務的廣泛評估,我們展示了 PaLM 2 在不同模型尺寸下在下游任務上有顯著提升的質量,同時與 PaLM 相比具有更快速和更高效的推論能力。這種改進的效率使得更廣泛的部署成為可能,同時也使模型能夠更快速地回應,實現更自然的互動節奏。PaLM 2 展現了強大的推理能力,通過在 BIG-Bench 和其他推理任務上相對於 PaLM 的巨大改進來加以證明。PaLM 2 在一系列負責任的人工智能評估中表現穩定,並且能夠在推論時控制有毒性,而無需額外的開銷或對其他功能的影響。總的來說,PaLM 2 在各種任務和能力上實現了最先進的性能。 在討論 PaLM 2 系列時,重要的是要區分預訓練模型(各種尺寸)、這些模型的微調變體,以及使用這些模型的面向用戶的產品之間的區別。特別是,面向用戶的產品通常包括額外的預處理和後處理步驟。此外,底層模型可能隨時間演變。因此,不應期望面向用戶的產品的性能與本報告中報告的結果完全匹配。
文本編輯或修訂是人類寫作過程中的重要功能。了解大型語言模型(LLMs)在進行高質量修訂和與人類作者合作方面的能力是建立有效寫作助手的關鍵步驟。通過先前LLMs和指示調整的成功,我們利用調整指示的LLMs進行文本修訂,以提高用戶生成文本的質量並改善過程的效率。我們介紹了CoEdIT,這是一個用於寫作輔助的最先進的文本編輯模型。CoEdIT接受用戶提供的指示,指定所需文本的屬性,例如“使句子更簡單”或“以更中性的風格書寫”,並輸出編輯後的文本。我們提出了一個在各種任務特定指示的多樣集合上進行微調的大型語言模型(總共82K個指示)。我們的模型(1)在各種文本編輯基準測試中實現了最先進的性能,(2)與公開可用的在指示上訓練的最大尺寸LLMs相比具有競爭力,同時體積小了約60倍,(3)能夠推廣到未見過的編輯指示,(4)具有組合理解能力,可以推廣到包含不同編輯操作組合的指示。通過廣泛的定性和定量分析,我們展示作者更喜歡CoEdIT建議的編輯,相對於其他最先進的文本編輯模型。我們的代碼和數據集是公開可用的。
已經證明從人類反饋中學習對於使語言模型與人類偏好保持一致是有效的。過去的研究通常依賴於從人類反饋中進行強化學習(RLHF),該方法使用從人類偏好數據訓練的獎勵模型分配的獎勵分數來優化語言模型。在這項研究中,我們展示了最近引入的序列可能性校準(SLiC)也可以用於有效地從人類偏好中學習(SLiC-HF)。此外,我們展示了這可以使用為不同模型收集的人類反饋數據來實現,類似於離線強化學習數據。在TL;DR摘要任務上進行的自動和人類評估實驗表明,SLiC-HF顯著改善了監督微調基線。此外,SLiC-HF提供了一個競爭性的替代方案,比過去工作中使用的PPO RLHF實現更簡單,更容易調整,在實踐中更具計算效率。
預訓練資料領域的混合比例(例如維基百科、書籍、網頁文字)對語言模型(LM)的性能有很大影響。本文提出了一種稱為最小最大優化的領域重新加權方法(DoReMi),該方法首先使用群體分布魯棒優化(Group DRO)在各個領域上訓練一個小型代理模型,以生成領域權重(混合比例),而無需了解下游任務。然後,我們使用這些領域權重對數據集進行重新取樣,並訓練一個更大的全尺寸模型。在我們的實驗中,我們使用DoReMi在一個具有 2.8 億參數的代理模型上,更有效地找到用於訓練一個具有 80 億參數的模型(規模大 30 倍)的領域權重。在 The Pile 數據集上,DoReMi 在所有領域上都改善了困惑度,即使它降低了某個領域的權重。DoReMi 將平均少樣本下游準確性提高了 6.5%,優於使用 The Pile 默認領域權重訓練的基線模型,並且以 2.6 倍較少的訓練步驟達到基線準確性。在 GLaM 數據集上,DoReMi 即使沒有下游任務的知識,也能與調整為下游任務的領域權重的性能相匹配。
本文介紹自我蒸餾和在線聚類,用於自監督語音表示學習(DinoSR),結合了遮罩語言建模、自我蒸餾和在線聚類。我們展示了這些概念彼此補充,並產生了一個強大的語音表示學習模型。DinoSR首先從輸入音頻中使用教師網絡提取情境化嵌入,然後在嵌入上運行在線聚類系統,以產生機器發現的音素庫,最後使用離散化的標記來引導學生網絡。我們展示了DinoSR在幾個下游任務中超越了先前的最先進性能,並對模型和學習的離散單元進行了詳細分析。在匿名期結束後,源代碼將提供。
增強詞語使用是寫作輔助中一個理想的功能。為了進一步推進這一領域的研究,本文介紹了「智能詞語建議」(SWS)任務和基準。與其他作品不同,SWS強調端到端評估,呈現了更現實的寫作輔助情境。該任務涉及識別需要改進的詞語或短語,並提供替換建議。基準包括人工標記的測試數據,用於訓練的大型遠程監督數據集,以及評估框架。測試數據包括由英語學習者撰寫的1,000個句子,附帶由10名母語者標註的超過16,000個替換建議。訓練數據集包括超過3.7百萬個句子和通過規則生成的12.7百萬個建議。我們對七個基準模型進行的實驗表明,SWS是一個具有挑戰性的任務。根據實驗分析,我們提出了未來在SWS上進行研究的潛在方向。數據集和相關代碼可在https://github.com/microsoft/SmartWordSuggestions找到。
大型語言模型(LLMs)展示了對越來越多任務的卓越預測性能。然而,它們的快速擴散和日益不透明性引發了對可解釋性的需求。在這裡,我們探討是否可以自動獲得黑盒文本模塊的自然語言解釋。所謂的「文本模塊」是指將文本映射到連續標量值的任何函數,例如LLM內的子模塊或大腦區域的擬合模型。"黑盒"表示我們只能訪問模塊的輸入/輸出。 我們提出了Summarize and Score(SASC)方法,該方法接受一個文本模塊並返回模塊選擇性的自然語言解釋,以及解釋可靠性的分數。我們在3個情境下研究SASC。首先,我們在合成模塊上評估SASC,發現它通常可以恢復地面真相解釋。其次,我們使用SASC來解釋預先訓練的BERT模型中找到的模塊,從而審查模型的內部。最後,我們展示SASC可以為個別fMRI像素對語言刺激的響應生成解釋,具有應用於精細腦部映射的潛力。所有使用SASC和重現結果的代碼都在Github上提供。
在裝置上的自動語音識別系統與基於伺服器的系統相比,面臨著幾個挑戰。它們必須在速度、磁碟大小和記憶體方面符合更嚴格的限制,同時保持相同的準確性。通常,它們必須同時為多個具有不同分佈的應用提供服務,例如與虛擬助手和語音轉文字進行通信。為多個應用構建特定的(語言)模型是最簡單的解決方案,但這將導致記憶體增加。因此,我們探索了不同的數據驅動和架構驅動的語言建模方法,以構建單一應用無關的模型。我們提出了兩種新穎的前饋架構,找到了在裝置上不同限制之間的最佳折衷方案。與特定應用解決方案相比,我們的其中一種新方法將磁碟大小減少了一半,同時保持了原始模型的速度和準確性。
多視角立體匹配(Multi-view Stereo, MVS)的核心是參考像素和來源像素之間的匹配過程。在這個過程中,成本聚合扮演著重要角色,先前的方法主要著重於通過卷積神經網絡(CNNs)來處理它。這可能會繼承CNNs的自然限制,無法區分重複或不正確的匹配,因為其局部感受野有限。為了應對這個問題,我們旨在將Transformer引入成本聚合中。然而,另一個問題可能會出現,這是由於Transformer引起的計算複雜度呈二次增長,導致內存溢出和推論延遲。在本文中,我們通過一個高效的基於Transformer的成本聚合網絡,即CostFormer,克服了這些限制。提出了殘差深度感知成本Transformer(RDACT),通過自注意機制在深度和空間維度上聚合長程特徵。此外,提出了殘差回歸Transformer(RRT)來增強空間注意力。該方法是一個通用的插件,可改善基於學習的MVS方法。
大型、多語言語言模型展現了出乎意料的良好的零翻譯或少翻譯機器翻譯能力,儘管從未見過提供給典型神經翻譯系統的有意包含的翻譯範例。我們研究了偶發性雙語能力的作用——即無意中消耗雙語信號,包括翻譯範例——以解釋大型語言模型翻譯能力的情況,以 Pathways 語言模型(PaLM)作為案例研究。我們引入了一種混合方法來在規模上測量和理解偶發性雙語能力。我們展示 PaLM 暴露於至少 44 種語言的超過 3,000 萬個翻譯對。此外,偶發性雙語內容的量與非英語語言的單語內容量高度相關。我們將偶發性雙語內容與零翻譯提示相關聯,並展示它可用於挖掘新提示以改善 PaLM 在英語以外的零翻譯質量。最後,在一系列小規模的消融實驗中,我們展示其存在對翻譯能力有顯著影響,儘管這種影響隨著模型規模的增大而減弱。
我們研究多個大型語言模型(LLMs)是否能透過遊玩、反思和批評在談判遊戲中自主地互相改進。我們對這個問題感興趣,因為如果LLMs能夠互相改進,這將意味著可以創建強大的人工智能代理,並減少人類的介入。我們要求兩個LLMs互相協商,分別扮演買家和賣家的角色。他們的目標是達成一項交易,買家希望價格更低,而賣家則希望價格更高。第三個語言模型擔任評論家,提供反饋給玩家以改進其談判策略。我們讓這兩個代理進行多輪遊戲,使用先前的談判歷史和人工智能反饋作為上下文示範,以迭代方式改進模型的談判策略。我們使用不同的LLMs(GPT和Claude)擔任不同角色,並以交易價格作為評估指標。我們的實驗揭示了多個有趣的發現:(1)我們考慮的語言模型中只有部分能夠自我遊玩並從人工智能反饋中改進交易價格,較弱的模型要麼不理解遊戲規則,要麼無法將人工智能反饋納入進一步改進。 (2)模型從反饋中學習的能力在扮演不同角色時有所不同。例如,Claude-instant作為買家比作為賣家更難改進。 (3)當將遊戲延展到多輪時,更強大的代理可以通過有意義地利用先前的經驗和迭代的人工智能反饋來持續改進其表現,但也更容易破壞交易。我們希望我們的工作提供了對模型如何通過遊戲和人工智能反饋自主改進的深入初步探索。
細粒度分類是一項具有挑戰性的任務,涉及識別同一類別內物件之間的細微差異。這項任務在數據稀缺的情況下尤為困難。視覺Transformer(ViT)最近已成為圖像分類的強大工具,因其能夠利用自注意機制學習視覺數據的高度表達性表示。在這項工作中,我們探索了Semi-ViT,這是一種使用半監督學習技術微調的ViT模型,適用於缺乏標註數據的情況。這在電子商務中特別常見,其中圖像容易獲得,但標籤可能是嘈雜的、不存在的或難以獲取的。我們的結果表明,即使在有限的標註數據下進行微調,Semi-ViT也優於傳統的卷積神經網絡(CNN)和ViTs。這些發現表明,Semi-ViT對於需要對視覺數據進行精確和細粒度分類的應用具有重要潛力。
本研究是在2023年IEEE國際機器人與自動化大會上的非傳統空間表示研討會上發表的。 神經輻射場(NeRFs)是一類隱式場景表示,從彩色圖像中建模3D環境。NeRFs具有表現力,能夠模擬真實世界環境的複雜和多尺度幾何結構,這使它們潛在地成為機器人應用的強大工具。現代NeRF訓練庫可以在幾秒內從靜態數據集生成逼真的NeRF,但設計用於離線使用,需要緩慢的姿態優化預計算步驟。 在這項工作中,我們提出了NerfBridge,這是一個開源橋樑,連接機器人操作系統(ROS)和流行的Nerfstudio庫,用於從圖像流中實時、在線訓練NeRF。NerfBridge通過提供一個可擴展的接口,連接到Nerfstudio提供的高效訓練管線和模型庫,從而促進了在機器人學中應用NeRF的研究的快速發展。作為一個示例用例,我們概述了一個硬體設置,可以使用NerfBridge來訓練一個NeRF,該NeRF是通過安裝在四旋翼機上的相機捕捉室內和室外環境的圖像而獲得的。 有關相應視頻,請參見https://youtu.be/EH0SLn-RcDg,代碼請參見https://github.com/javieryu/nerf_bridge。
多媒體內容,如廣告和故事影片,展現了豐富的創意和多種模式。它們融合了文本、視覺、音訊和敘事技巧等元素,運用情感、象徵和口號等手法來傳達意義。雖然先前在多媒體理解方面的研究主要集中在具有特定動作的影片,如烹飪,但缺乏大規模標註的訓練數據集,阻礙了對現實應用中表現滿意的監督式學習模型的發展。然而,大型語言模型(LLMs)的崛起在各種自然語言處理(NLP)任務中見證了卓越的零-shot表現,如情感分類、問答和主題分類。為了彌補多媒體理解中的這一性能差距,我們提出了將故事影片轉述為自然語言生成其描述,然後對生成的故事執行視頻理解任務,而不是原始影片。通過對五個視頻理解任務進行廣泛實驗,我們證明了我們的方法,儘管是零-shot,但在視頻理解方面取得了顯著比監督基線更好的結果。此外,為了緩解對故事理解基準的不足,我們公開發布了第一個關鍵的計算社會科學任務數據集,即說服策略識別。