每日精選AI研究論文及翻譯
對話式生成式人工智慧已展現顯著潛力,有助於賦予生物醫學從業者更多能力,但目前的研究集中在單模態文本上。多模態對話式人工智慧通過利用來自公共網路的數十億個圖像-文本對取得了快速進展,但這類通用領域的視覺語言模型在理解和對話有關生物醫學圖像方面仍缺乏複雜性。本文提出了一種成本效益高的方法,用於訓練一個能回答有關生物醫學圖像的開放性研究問題的視覺語言對話助手。關鍵思想是利用從PubMed Central提取的大規模、廣泛覆蓋的生物醫學圖說數據集,使用GPT-4從這些圖說中自我指導開放性指示遵循數據,然後利用一種新的課程學習方法對一個大型通用領域的視覺語言模型進行微調。具體而言,該模型首先學習使用圖說對齊生物醫學詞彙,然後使用GPT-4生成的指示遵循數據學習掌握開放性對話語義,廣泛模擬一個門外漢逐漸獲取生物醫學知識的過程。這使我們能夠在不到15小時的時間內(使用八個A100)訓練出一個大型語言和視覺生物醫學助手(LLaVA-Med)。LLaVA-Med展現出卓越的多模態對話能力,可以按照開放性指示協助查詢有關生物醫學圖像的問題。在三個標準的生物醫學視覺問答數據集上,LLaVA-Med在某些指標上優於先前的監督式最先進方法。為促進生物醫學多模態研究,我們將釋出我們的指示遵循數據和LLaVA-Med模型。
預先訓練的大型文本到圖像模型能夠運用適當的文本提示合成令人印象深刻的圖像。然而,自然語言中固有的歧義性和分布外效應使得合成特定設計模式、紋理或材料風格的圖像變得困難。本文介紹了一種名為StyleDrop的方法,該方法能夠利用文本到圖像模型合成嚴格遵循特定風格的圖像。所提出的方法非常靈活,能夠捕捉用戶提供的風格的細微差異和細節,如色彩方案、陰影、設計模式以及局部和全局效應。它通過微調極少量可訓練參數(不到總模型參數的1%)來高效學習新風格,並通過與人工或自動反饋的迭代訓練來提高質量。更棒的是,即使用戶只提供一張指定所需風格的單張圖像,StyleDrop也能呈現令人印象深刻的結果。一項廣泛的研究表明,在風格調整文本到圖像模型的任務中,基於Muse實現的StyleDrop明顯優於其他方法,包括DreamBooth以及在Imagen或Stable Diffusion上的文本反轉。更多結果可在我們的項目網站上查看:https://styledrop.github.io
我們介紹了一個基於價值的強化學習代理人,我們稱之為BBF,在Atari 100K基準測試中實現了超越人類的表現。BBF依賴於對用於價值估計的神經網絡進行縮放,以及一些其他設計選擇,這些選擇使得在樣本效率方面實現了這種縮放。我們對這些設計選擇進行了廣泛的分析,並為未來的工作提供了見解。最後,我們討論了關於在ALE上進行樣本效率強化學習研究的目標更新。我們將我們的代碼和數據公開發布在https://github.com/google-research/google-research/tree/master/bigger_better_faster。
由穩定擴散等擴散模型生成的圖像越來越普遍。最近的研究甚至訴訟表明,這些模型往往會在未經使用者察覺的情況下複製其訓練數據。在本文中,我們首先分析了文本到圖像擴散模型中這個記憶問題。儘管廣泛認為訓練集中的重複圖像是推斷時內容複製的原因,但我們觀察到模型的文本條件設置同樣扮演著重要角色。事實上,我們在實驗中發現,無條件模型通常不會發生數據複製,而在文本條件下則很常見。受到我們發現的啟發,我們提出了幾種減少訓練和推斷時數據複製的技術,通過在訓練集中對圖像標題進行隨機化和增強。
Transformer已成為最先進的自然語言處理模型的基石,展示出在各種人工智慧應用中卓越的表現。然而,Transformer中的自注意機制和龐大的前饋網絡所提出的記憶需求限制了它們處理長序列的能力,因此對涉及多個長序列或長期依賴的任務構成挑戰。我們提出了一種獨特的方法,即區塊並行Transformer(BPT),它利用區塊式計算自注意和前饋網絡融合來降低記憶成本。通過處理更長的輸入序列並保持記憶效率,BPT使得訓練序列的長度可達到比普通Transformer長32倍,比先前的記憶效率方法長2至4倍。在語言建模和強化學習任務上進行的大量實驗顯示了BPT在減少記憶需求和提高性能方面的有效性。
鑑於大型語言模型(LLMs)的快速崛起,我們研究以下問題:大型語言模型如何幫助科學論文或提案的審查?我們首先進行了一些試點研究,發現(i)GPT-4在性能上優於其他LLMs(Bard、Vicuna、Koala、Alpaca、LLaMa、Dolly、OpenAssistant、StableLM),以及(ii)通過特定問題的提示(例如,識別錯誤)優於提示簡單撰寫評論。基於這些見解,我們研究了LLMs(具體來說是GPT-4)在三個任務中的應用: 1. 識別錯誤:我們編寫了13篇短的計算機科學論文,每篇故意插入一個錯誤,要求LLM檢查這些論文的正確性。我們觀察到LLM在其中發現了7個錯誤,涵蓋了數學和概念錯誤。 2. 驗證檢查表:我們要求LLM驗證15篇NeurIPS 2022論文各個部分中的16個閉合式檢查表問題。我們發現在119個{檢查表問題,論文}對中,LLM的準確率為86.6%。 3. 選擇“更好”的論文:我們生成了10對摘要,故意設計每對摘要以一個明顯優於另一個。然而,LLM在準確辨別這些相對簡單的區別方面遇到困難,對其中的10對中有6對的評估中出現錯誤。 基於這些實驗,我們認為LLMs在特定審查任務中作為審查助手有潛在用途,但尚不適用於對論文或提案的完整評估。
對比式語言-圖像預訓練(CLIP)是訓練可轉移視覺模型的一種高效且可擴展的方法之一,使用成對的圖像和文本數據。CLIP 模型使用對比損失進行訓練,通常依賴於數據增強來防止過度擬合和捷徑。然而,在 CLIP 訓練範式中,數據增強僅應用於圖像輸入,而語言輸入在整個訓練過程中保持不變,限制了不同文本對同一圖像的曝光。在本文中,我們介紹了一種名為語言增強 CLIP(LaCLIP)的簡單但高效的方法,通過語言重寫來增強 CLIP 訓練。利用大型語言模型的上下文學習能力,我們重寫與每個圖像相關的文本描述。這些重寫的文本在句子結構和詞彙方面呈現多樣性,同時保留原始的關鍵概念和含義。在訓練期間,LaCLIP 隨機選擇原始文本或重寫版本作為每個圖像的文本增強。在 CC3M、CC12M、RedCaps 和 LAION-400M 數據集上進行的大量實驗表明,使用語言重寫的 CLIP 預訓練明顯提高了轉移性能,而在訓練期間沒有計算或內存開銷。特別是對於 ImageNet 零樣本準確度,LaCLIP 在 CC12M 上超越 CLIP 8.2%,在 LAION-400M 上超越 CLIP 2.4%。代碼可在 https://github.com/LijieFan/LaCLIP 找到。
近年來,在使用文字指令編輯圖像方面取得了相當大的成就。當將這些編輯器應用於動態場景編輯時,由於這些2D編輯器的逐幀特性,新風格場景往往在時間上不一致。為了應對這個問題,我們提出了Control4D,這是一種新穎的方法,用於高保真度和時間一致性的4D肖像編輯。Control4D基於一種高效的4D表示形式,並配備了一個2D基於擴散的編輯器。我們的方法不是直接從編輯器中獲取監督,而是從中學習一個4D GAN,避免不一致的監督信號。具體來說,我們利用鑑別器來根據編輯後的圖像學習生成分佈,然後用鑑別信號來更新生成器。為了實現更穩定的訓練,從編輯後的圖像中提取多層信息,並用於促進生成器的學習。實驗結果顯示,Control4D超越了先前的方法,實現了更具照片逼真度和一致性的4D編輯性能。我們項目網站的鏈接為https://control4darxiv.github.io。
離線強化學習(RL)旨在從離線數據集中學習最優策略,其中策略的參數化至關重要,但常常被忽視。最近,Diffusion-QL通過使用擴散模型來表示策略,顯著提高了離線RL的性能,其成功取決於具有數百步採樣的參數化馬爾可夫鏈。然而,Diffusion-QL存在兩個關鍵限制。1)在訓練期間通過整個馬爾可夫鏈進行前向和後向計算效率低下。2)它與基於最大似然的RL算法(例如,策略梯度方法)不相容,因為擴散模型的似然是棘手的。因此,我們提出了高效擴散策略(EDP)來克服這兩個挑戰。EDP在訓練期間通過從受損動作中近似構建動作,以避免運行採樣鏈。我們在D4RL基準測試上進行了大量實驗。結果顯示,EDP可以將擴散策略的訓練時間從5天縮短到5小時,適用於gym-locomotion任務。此外,我們展示了EDP與各種離線RL算法(如TD3、CRR和IQL)兼容,並在D4RL上以大幅度超越先前方法的新最先進水平。我們的代碼可在https://github.com/sail-sg/edp找到。
我們提出了一種重建人類並隨時間追踪他們的方法。在我們方法的核心,我們提出了一個完全「Transformer 化」的人體網絡版本,用於人體網格恢復。這個網絡,HMR 2.0,推進了技術水平,展示了分析過去難以從單張圖像重建的不尋常姿勢的能力。為了分析視頻,我們使用從 HMR 2.0 獲得的 3D 重建作為操作於 3D 空間的追踪系統的輸入。這使我們能夠處理多人情況並通過遮擋事件保持身份。我們的完整方法,4DHumans,在從單眼視頻追踪人們方面實現了最先進的成果。此外,我們展示了 HMR 2.0 在下游動作識別任務上的有效性,相較於以前基於姿勢的動作識別方法,實現了顯著的改進。我們的代碼和模型可在項目網站上找到:https://shubham-goel.github.io/4dhumans/.
我們介紹了一款名為「人還是非人?」的線上遊戲,靈感來自圖靈測試,用於評估人工智慧聊天機器人模仿人類對話的能力,以及人類辨別機器人和其他人類的能力。在一個月的時間裡,這款遊戲吸引了超過150萬用戶參與,他們進行了與另一個人類或被提示要像人類一樣行為的人工智慧語言模型進行的匿名兩分鐘對話。玩家的任務是正確猜測他們是在與一個人還是一個人工智慧對話。這是迄今為止規模最大的圖靈式測試,揭示了一些有趣的事實。例如,整體用戶僅在68%的遊戲中正確猜測出他們對話對象的身份。在用戶面對人工智慧機器人的遊戲子集中,用戶甚至更低的正確猜測率為60%(即與隨機猜測差不多)。這份白皮書詳細介紹了這一獨特實驗的開發、部署和結果。雖然這個實驗需要許多擴展和改進,但這些發現已經開始揭示將人類和人工智慧混合在一起的不可避免的不久將來。
大型語言模型(LLMs)在各種自然語言生成任務中展現出卓越的成功,適當的提示設計對其影響深遠。現有的提示方法通常僅限於提供正確信息,但在本文中,我們鼓勵模型通過提出一個新穎的「先思考後生成」(DTG)提示框架來深入思考,該框架包括錯誤檢測指示和可能包含錯誤的候選項。DTG是一種簡單而有效的技術,可以應用於各種文本生成任務,並且只需進行最少的修改。我們在包括摘要、翻譯、對話等在內的7個文本生成任務上對20多個數據集進行了廣泛實驗。我們展示了DTG始終優於現有提示方法,在多個文本生成任務上實現了最先進的性能。我們還進行了深入分析,揭示了DTG的潛在機制,這可能激發對LLMs提示的未來研究。
程序性規劃是將高層目標分解為一系列按時間順序排列的步驟,對於機器而言是一項重要且複雜的任務。它涉及整合常識知識,以推理處理通常是反事實的複雜情境,例如「在沒有手機的情況下安排醫生的預約」。儘管目前的方法利用大型語言模型(LLMs)取得了令人鼓舞的結果,但受到昂貴的應用程式介面調用和可重現性問題的阻礙。在本文中,我們主張使用較小的語言模型進行規劃。我們提出了PlaSma,一種新穎的雙管齊下方法,賦予小型語言模型程序性知識和(反事實)規劃能力。更具體地說,我們開發了符號性程序性知識蒸餾,以增強小型語言模型中的隱含知識,並提出了一種推理時間算法,以促進更有結構和準確的推理。此外,我們引入了一項新任務,反事實規劃,需要修改計劃以應對反事實情況。在原始和反事實設置中,我們展示了數量級較小的模型(770M-11B參數)可以競爭,並且通常超越其較大的教師模型的能力。