每日精選AI研究論文及翻譯
大型語言模型(LLMs)在機器學習討論中從不存在變得無所不在只用了幾年的時間。由於領域發展迅速,很難確定尚存的挑戰和已經取得成果的應用領域。在本文中,我們旨在建立一套系統化的開放問題和應用成功案例,以便機器學習研究人員能更快地理解該領域的現狀並提高生產力。
自2022年底以來,大型語言模型(LLMs)已變得非常突出,像ChatGPT和Bard這樣的LLMs已經吸引了數百萬用戶。每週都會宣布數百種新的LLMs,其中許多被存放在Hugging Face,這是一個機器學習模型和數據集的存儲庫。迄今為止,將近16,000個文本生成模型已上傳到該網站。鑒於LLMs的大量湧入,了解哪些LLM骨幹、設置、訓練方法和系列受歡迎或趨勢是很有趣的。然而,目前沒有可用的LLMs綜合指標。我們利用Hugging Face LLMs相對系統化的命名法,通過n-grams和詞頻-逆文檔頻率執行階層聚類,識別LLMs之間的社區。我們的方法成功識別LLMs系列並將LLMs準確地聚類為有意義的子組。我們提供了一個公共網絡應用程序,用於瀏覽和探索Constellation,我們的15,821個LLMs的地圖集。Constellation快速生成各種可視化,包括階層圖、圖形、詞雲和散點圖。Constellation可在以下鏈接獲取:https://constellation.sites.stanford.edu/。
在視覺內容生成日益受機器學習驅動的時代,將人類反饋整合到生成模型中,為提升用戶體驗和輸出品質帶來重大機遇。本研究探討將迭代人類反饋納入基於擴散的文本到圖像模型生成過程的策略。我們提出了一種名為FABRIC的無需訓練的方法,適用於廣泛的熱門擴散模型,利用最廣泛使用的架構中的自注意力層,將擴散過程條件化為一組反饋圖像。為確保對我們方法的嚴格評估,我們引入了一種全面的評估方法,提供了一個強大的機制來量化整合人類反饋的生成視覺模型的性能。我們通過詳盡分析展示,通過多輪迭代反饋,生成結果得到改善,從而隱式優化任意用戶偏好。這些發現的潛在應用延伸至個性化內容創建和定制等領域。
圖層合成是業餘愛好者和專業人士中最流行的圖像編輯工作流之一。受擴散模型成功的啟發,我們從分層圖像生成的角度探索圖層合成。我們提出不僅生成圖像,還同時生成背景、前景、圖層遮罩和合成圖像。為了實現分層圖像生成,我們訓練了一個能夠重建分層圖像的自編碼器,並在潛在表示上訓練擴散模型。提出問題的一個好處是除了高質量的圖像輸出外,還能實現更好的合成工作流程。另一個好處是相對於通過圖像分割的單獨步驟生成的遮罩,能夠生成更高質量的圖層遮罩。實驗結果表明,提出的方法能夠生成高質量的分層圖像,並為未來工作建立了基準。
語言模型和視覺語言模型最近展示了在理解人類意圖、推理、場景理解和類似規劃行為等方面的前所未有的能力,這些能力是以文本形式呈現的。在這項工作中,我們探討如何嵌入和利用這些能力在強化學習(RL)代理程序中。我們設計了一個以語言作為核心推理工具的框架,探索這如何使代理程序應對一系列基本的RL挑戰,例如有效的探索、重複使用經驗數據、排程技能和從觀察中學習,這些傳統上需要獨立、垂直設計的算法。我們在一個稀疏獎勵的模擬機器人操作環境中測試我們的方法,其中一個機器人需要堆疊一組物體。我們展示了在探索效率和能夠重複使用來自離線數據集的數據方面相對於基準的顯著性能改進,並說明如何重複使用學習到的技能來解決新任務或模仿人類專家的視頻。
儘管會話人工智慧取得了進展,語言模型在處理多樣對話任務時仍面臨挑戰,現有的對話資料集常常缺乏多樣性和全面性。為了應對這些問題,我們推出了DialogStudio:這是最大、最多元的對話資料集合,統一採用一致的格式,同時保留其原始資訊。我們的資料集包含來自開放領域對話、任務導向對話、自然語言理解、對話推薦、對話摘要和知識導向對話的資料,使其成為對話研究和模型訓練的極為豐富和多元的資源。為了進一步提升DialogStudio的效用,我們為每個資料集確定了授權許可,並為選定的對話設計了具有領域意識的提示,以便促進指導感知微調。此外,我們利用該資料集合開發了會話人工智慧模型,我們在零樣本和少樣本學習場景中的實驗表明了DialogStudio的優越性。為了提高透明度並支持資料集和任務導向研究,以及語言模型預訓練,與DialogStudio相關的所有資料集、授權許可、程式碼和模型都可在https://github.com/salesforce/DialogStudio 公開獲取。
近來對能夠解釋人類自然語言指令並通過直接控制數位設備的使用者介面來執行這些指令的設備控制系統越來越感興趣。我們提出了一個用於設備控制研究的數據集 Android in the Wild (AITW),其規模比目前的數據集大許多。該數據集包含了人類對設備互動的示範,包括屏幕和操作,以及相應的自然語言指令。它包含了 715k 個情節,涵蓋 30k 個獨特指令,四個 Android 版本 (v10-13),以及八種設備類型 (Pixel 2 XL 到 Pixel 6),具有不同的屏幕分辨率。它包含需要語義理解和視覺上下文的多步任務。這個數據集提出了一個新挑戰:必須從其視覺外觀推斷使用者介面中可用的操作。而且,動作空間不是基於簡單的使用者介面元素的操作,而是包含精確手勢 (例如,水平滾動以操作旋轉木馬小部件)。我們組織了我們的數據集,以鼓勵對設備控制系統的韌性分析,即系統在面對新任務描述、新應用程序或新平台版本時的表現。我們開發了兩個代理程序並報告了在整個數據集上的性能。該數據集可在以下網址獲得:https://github.com/google-research/google-research/tree/master/android_in_the_wild。
最新的語言模型已展現出在之前被認為是人類專屬能力的群眾外包任務中複製人類行為的潛力。然而,目前的努力主要集中在簡單的基本任務上。我們探討語言模型是否能夠複製更複雜的群眾外包流程。我們發現現代語言模型能夠模擬部分群眾工作者在這些「人類計算演算法」中的能力,但成功程度會有所不同,並受到委託者對語言模型能力的理解、子任務所需的具體技能以及執行這些子任務的最佳互動方式的影響。我們反思了人類和語言模型對指示的不同敏感性,強調了為語言模型提供面向人類的安全防護的重要性,並討論了訓練人類和語言模型具有互補技能組合的潛力。重要的是,我們展示了複製群眾外包流程提供了一個寶貴的平台,可用於研究(1)語言模型在不同任務上的相對優勢(通過交叉比較它們在子任務上的表現)和(2)語言模型在複雜任務中的潛力,在這些任務中,它們可以完成部分任務,而將其他任務留給人類。
真實的以人為中心渲染在計算機視覺和計算機圖形學中扮演著關鍵角色。多年來在算法方面取得了快速進展,然而現有的以人為中心渲染數據集和基準測試在多樣性方面相對貧乏,而這對於渲染效果至關重要。研究人員通常受限於在當前數據集上探索和評估少量渲染問題,而現實應用需要方法能夠在不同場景下保持穩健性。在這項工作中,我們提出了DNA-Rendering,這是一個大規模、高保真度的神經演員渲染人類表現數據庫。DNA-Rendering 具有幾個吸引人的特點。首先,我們的數據集包含超過1500名人類受試者、5000個運動序列和6750萬幀的數據量。其次,我們為每個受試者提供豐富的資產 - 2D/3D 人體關鍵點、前景遮罩、SMPLX 模型、服裝/配飾材料、多視圖圖像和視頻。這些資產提高了當前方法在下游渲染任務上的準確性。第三,我們構建了一個專業的多視圖系統來捕獲數據,其中包含60個同步相機,最大解析度為4096 x 3000,速度為每秒15幀,以及嚴格的相機校準步驟,確保了高質量的資源用於任務訓練和評估。除了數據集,我們提供了一個全面的大規模和定量基準測試,其中包含多個任務,用於評估新型視圖合成、新型姿勢動畫合成和新型身份渲染方法的現有進展。在這篇論文中,我們描述了我們的DNA-Rendering工作,揭示了新的觀察、挑戰和未來發展方向,針對以人為中心的渲染。數據集、代碼和基準測試將在 https://dna-rendering.github.io/ 上公開提供。
基於梯度的適應性優化器,尤其是Adam,在訓練大規模深度學習模型方面留下了深刻的印記。這類優化器的優勢在於它們展現出快速收斂的特性,同時對超參數的選擇更具韌性。然而,它們通常泛化能力不如非適應性方法。最近的研究將這種性能差距歸因於平坦極小值的選擇:適應性方法往往會在損失景觀的更陡峭盆地中找到解,進而損害泛化能力。為了克服這個問題,我們提出了一種新的記憶增強版本的Adam,通過在訓練過程中使用一個關鍵動量項緩衝區,促進朝向更平坦極小值的探索。直觀地,使用該緩衝區使優化器在吸引盆地不夠寬時會超過範圍。我們在標準監督語言建模和圖像分類任務上實證表明,我們的方法提升了幾個Adam變體的性能。