每日精選AI研究論文及翻譯
最近,文本到圖像生成取得了顯著的成就。我們介紹了一種名為 RAPHAEL 的文本條件圖像擴散模型,用於生成高度藝術性的圖像,準確地描繪文本提示,包括多個名詞、形容詞和動詞。這是通過堆疊數十個專家混合層(MoEs)實現的,即空間-MoE 和時間-MoE 層,從網絡輸入到輸出實現了數十億的擴散路徑(路線)。每條路徑直觀地充當一位“畫家”,在擴散時間步驟上將特定的文本概念描繪到指定的圖像區域。全面的實驗顯示,RAPHAEL 在圖像質量和美學吸引力方面優於最新的尖端模型,如 Stable Diffusion、ERNIE-ViLG 2.0、DeepFloyd 和 DALL-E 2。首先,RAPHAEL 在切換不同風格的圖像方面表現出色,例如日本漫畫、寫實主義、赛博朋克和水墨插畫。其次,一個具有三十億參數的單一模型,在 1,000 個 A100 GPU 上訓練了兩個月,在 COCO 數據集上實現了 6.61 的最先進零樣本 FID 分數。此外,RAPHAEL 在 ViLG-300 基準上的人類評估中明顯超越了其競爭對手。我們相信,RAPHAEL 有潛力推動學術界和工業界圖像生成研究的前沿,為這個快速發展的領域的未來突破鋪平道路。更多詳細信息可在項目網頁上找到:https://raphael-painter.github.io/。
我們提出了一種方法,將凍結的僅文本大型語言模型(LLMs)與預先訓練的圖像編碼器和解碼器模型融合,通過對它們的嵌入空間進行映射。我們的模型展示了廣泛的多模態能力:圖像檢索、新穎圖像生成和多模態對話。我們的方法是第一個能夠在任意交錯的圖像和文本輸入上進行條件生成一致圖像(和文本)輸出的方法。為了在圖像生成上取得良好性能,我們提出了一個高效的映射網絡,將LLM基於現成的文本到圖像生成模型進行基礎化。該映射網絡將文本的隱藏表示轉換為視覺模型的嵌入空間,使我們能夠利用LLM的強大文本表示來生成視覺輸出。我們的方法在具有更長且更複雜語言的任務上優於基準生成模型。除了新穎的圖像生成,我們的模型還能夠從預定義的數據集中檢索圖像,並在推理時決定是檢索還是生成。這是通過一個學習的決策模塊完成的,該模塊條件於LLM的隱藏表示。我們的模型展示了比以前的多模態語言模型更廣泛的能力範圍。它可以處理圖像和文本輸入,並產生檢索到的圖像、生成的圖像和生成的文本,優於基於非LLM的生成模型在幾個測量上下文相依性的文本到圖像任務中的表現。
公開的大規模文本到圖像擴散模型,如穩定擴散,已經引起社群的廣泛關注。這些模型可以輕鬆透過低秩適應(LoRAs)進行新概念的定制。然而,利用多個概念LoRAs來共同支持多個定制概念提出了挑戰。我們將這種情況稱為分散式多概念定制,其中包括單客戶概念調整和中心節點概念融合。在本文中,我們提出了一個名為Mix-of-Show的新框架,解決了分散式多概念定制的挑戰,包括由現有單客戶LoRA調整引起的概念衝突和模型融合期間的身份丟失。Mix-of-Show採用了嵌入分解LoRA(ED-LoRA)進行單客戶調整,並採用梯度融合用於中心節點,以保留單一概念的領域本質,並支持理論上無限的概念融合。此外,我們引入了區域可控取樣,擴展了空間可控取樣(例如ControlNet和T2I-Adaptor)以解決多概念取樣中的屬性綁定和缺失對象問題。大量實驗表明,Mix-of-Show能夠以高度忠實地合成多個定制概念,包括字符、物體和場景。
穩定擴散從描述性文本中革新了圖像創建。GPT-2、GPT-3(.5) 和 GPT-4 在各種語言任務中展現了驚人的表現。ChatGPT 將這些語言模型引入了普通大眾。現在清楚地看到,大型語言模型(LLMs)已經來臨,將在線文本和圖像的整個生態系統中帶來重大變化。在本文中,我們考慮未來可能會出現的情況。當LLMs貢獻了網絡上大部分語言時,GPT-{n} 會發生什麼變化?我們發現,在訓練中使用模型生成的內容會導致生成的模型出現不可逆的缺陷,原始內容分佈的尾部消失。我們稱這種效應為模型失智症,並展示它可能發生在變分自編碼器(VAEs)、高斯混合模型(GMMs)和LLMs中。我們建立了這種現象背後的理論直覺,並描述了它在所有學習生成模型中的普遍性。我們展示,如果我們要維持從網絡上爬取的大規模數據訓練的好處,就必須嚴肅對待這一問題。事實上,在網絡爬取的數據中,由LLMs生成的內容存在時,對系統與真實人類互動收集的數據的價值將會越來越重要。
本文旨在有效地使大型語言模型(LLMs)能夠使用多模式工具。先進的專有LLMs,如ChatGPT和GPT-4,通過複雜的提示工程展示了對工具使用的巨大潛力。然而,這些模型通常依賴高昂的計算成本和不公開的數據。為應對這些挑戰,我們提出了基於自我指導的GPT4Tools,以使開源LLMs,如LLaMA和OPT,能夠使用工具。它通過提示高級教師以各種多模式上下文來生成一個遵循指示的數據集。通過使用低秩適應(LoRA)優化,我們的方法促進了開源LLMs解決一系列視覺問題,包括視覺理解和圖像生成。此外,我們提供了一個基準來評估LLMs使用工具的能力,這是通過零-shot和微調方式進行的。大量實驗證明了我們的方法對各種語言模型的有效性,不僅顯著提高了調用已見工具的準確性,還實現了對未見工具的零-shot能力。代碼和演示可在https://github.com/StevenGrove/GPT4Tools找到。
我們提出了MindEye,一種新穎的fMRI-to-image方法,用於從大腦活動中檢索和重建查看的影像。我們的模型包括兩個平行子模塊,專門用於檢索(使用對比學習)和重建(使用擴散先驗)。MindEye可以將fMRI大腦活動映射到任何高維多模態潛在空間,如CLIP影像空間,從而可以使用接受來自該潛在空間的嵌入的生成模型進行影像重建。我們通過定性並排比較和定量評估,全面比較了我們的方法與其他現有方法,並展示了MindEye在重建和檢索任務中實現了最先進的性能。特別是,MindEye可以從高度相似的候選影像中準確檢索出原始影像,這表明其大腦嵌入保留了細粒度的影像特定信息。這使我們能夠準確地從大規模數據庫(如LAION-5B)中檢索影像。我們通過消融實驗表明,MindEye相對於先前方法的性能改進來自於專門用於檢索和重建的子模塊、改進的訓練技術以及具有數量級更多參數的訓練模型。此外,我們展示了MindEye可以通過使用來自單獨自編碼器的輸出的img2img更好地保留重建中的低級影像特徵。所有代碼均可在GitHub上找到。
準確的故事視覺化需要幾個必要元素,例如跨幀的身份一致性、純文本與視覺內容之間的對齊,以及圖像中物件的合理佈局。大多數先前的研究試圖通過在相同風格和相同角色的一組視頻上擬合文本到圖像(T2I)模型來滿足這些要求,例如FlintstonesSV數據集。然而,學習的T2I模型通常難以適應新的角色、場景和風格,並且常常缺乏修改合成圖像佈局的靈活性。本文提出了一個通用的互動式故事視覺化系統,能夠處理多個新角色並支持編輯佈局和局部結構。通過利用在龐大語料庫上訓練的大型語言和T2I模型的先前知識來開發該系統。該系統包括四個相互關聯的組件:故事到提示生成(S2P)、文本到佈局生成(T2L)、可控文本到圖像生成(C-T2I)和圖像到視頻動畫(I2V)。首先,S2P模塊將簡潔的故事信息轉換為後續階段所需的詳細提示。接下來,T2L基於提示生成多樣且合理的佈局,為用戶提供調整和優化佈局的能力。核心組件C-T2I使得在保持視覺化的一致性和細節的情況下,通過佈局、草圖和特定演員標識符引導創建圖像成為可能。最後,I2V通過為生成的圖像添加動畫豐富了視覺化過程。通過廣泛的實驗和用戶研究來驗證所提出系統的互動式編輯的有效性和靈活性。
大型語言模型(LLMs)展示了在各種自然語言中具有良好翻譯表現的潛力。然而,許多LLMs,特別是像BLOOM和LLaMA這樣的開源模型,主要以英語為主,僅支援數十種自然語言,導致LLMs在語言翻譯方面的潛力尚未被充分探索。在這項研究中,我們提出了BigTrans,它是在LLaMA的基礎上進行了擴展,原本只支援20種語言的LLaMA現在具備了在100多種語言上進行多語言翻譯的能力。BigTrans是基於LLaMA-13B構建的,並經過三個步驟的優化。首先,我們使用大量的中文單語數據繼續訓練LLaMA。其次,我們使用一個包含102種自然語言的大規模平行數據集繼續訓練模型。第三,我們使用多語言翻譯指導對基礎模型進行微調,從而得到我們的BigTrans模型。對多語言翻譯的初步實驗顯示,BigTrans在許多語言上的表現與ChatGPT和Google翻譯相當,甚至在8種語言對中超越了ChatGPT。我們釋出了BigTrans模型,希望它能推動研究進展。
具有強大自然語言處理能力的大型語言模型(LLMs)已經出現,並迅速應用於科學、金融和軟體工程等各種領域。然而,LLMs在推動化學領域的能力仍不清楚。本文建立了一個包含8個實際化學任務的全面基準,包括1)名稱預測,2)性質預測,3)產量預測,4)反應預測,5)逆合成(從產物預測反應物),6)基於文本的分子設計,7)分子標題,以及8)試劑選擇。我們的分析基於廣泛認可的數據集,包括BBBP、Tox21、PubChem、USPTO和ChEBI,有助於在實際化學背景下廣泛探索LLMs的能力。我們對三個GPT模型(GPT-4、GPT-3.5和Davinci-003)在零樣本和少樣本內文學習設置中進行評估,使用精心選擇的示範例子和特別製作的提示。我們調查的主要結果為:1)在三個評估的模型中,GPT-4的表現優於其他兩個模型;2)GPT模型在需要對分子SMILES表示進行精確理解的任務中(如反應預測和逆合成)表現較差;3)GPT模型在文本相關的解釋任務(如分子標題)中展現出強大能力;以及4)當應用於可轉換為分類或排名任務的化學問題時,如性質預測和產量預測,GPT模型表現出與傳統機器學習模型相當或更好的性能。
目前的文本到圖像生成模型常常難以遵循文字指示,尤其是需要空間推理的指示。另一方面,大型語言模型(LLMs),如GPT-4,在生成程式碼片段以圖形方式勾勒出文字輸入方面表現出色,例如透過TikZ。在這項研究中,我們介紹了Control-GPT,以GPT-4生成的程式化草圖引導基於擴散的文本到圖像管道,增強其遵循指示的能力。Control-GPT通過查詢GPT-4撰寫TikZ程式碼,生成的草圖與文本指示一起用作擴散模型(例如ControlNet)生成逼真圖像的參考。訓練我們的管道面臨的一個主要挑戰是缺乏包含對齊文本、圖像和草圖的數據集。我們通過將現有數據集中的實例遮罩轉換為多邊形,以模擬測試時使用的草圖來解決這個問題。因此,Control-GPT大大提升了圖像生成的可控性。它在空間佈局和物體位置生成方面建立了新的技術水準,增強了用戶對物體位置、大小等的控制,幾乎使先前模型的準確性翻倍。我們的研究作為一次首次嘗試,展示了利用LLMs提升計算機視覺任務性能的潛力。
在一個以圖像和視覺內容主導數位景觀的時代,操控和個性化這些圖像的能力已成為必需。想像著在一張照片中無縫地將一隻悠閒躺在陽光照耀的窗台上的虎斑貓替換為你自己的俏皮小狗,同時保留圖像的原始魅力和構圖。我們提出了Photoswap,一種新穎的方法,通過在現有圖像中進行個性化主題替換,實現這種身臨其境的圖像編輯體驗。Photoswap首先從參考圖像中學習主題的視覺概念,然後使用預先訓練的擴散模型以無需訓練的方式將其交換到目標圖像中。我們確立了一個經過良好構思的視覺主題可以通過適當的自我關注和交叉關注操作,無縫地轉移到任何圖像中,保持替換主題的姿勢和圖像的整體一致性。全面的實驗強調了Photoswap在個性化主題替換中的有效性和可控性。此外,Photoswap在人類評分中在主題替換、背景保留和整體質量方面明顯優於基準方法,揭示了其廣泛的應用潛力,從娛樂到專業編輯。
憑藉大規模圖像文字數據集和擴散模型的進步,以文本驅動的生成模型在圖像生成和編輯領域取得了顯著進展。本研究探討將文本驅動能力擴展到生成和編輯多文本條件下的長視頻的潛力。目前的視頻生成和編輯方法雖然創新,但通常僅限於極短的視頻(通常少於24幀),並且僅限於單一文本條件。這些限制顯著限制了它們的應用,因為現實世界的視頻通常由多個部分組成,每個部分都包含不同的語義信息。為應對這一挑戰,我們提出了一種名為Gen-L-Video的新範式,能夠將現成的短視頻擴散模型擴展到生成和編輯包含數百幀具有多樣語義片段的視頻,而無需進行額外的訓練,同時保持內容一致性。我們實現了三種主流的文本驅動視頻生成和編輯方法,並擴展了它們以適應具有各種語義片段的長視頻。我們的實驗結果顯示,我們的方法顯著擴展了視頻擴散模型的生成和編輯能力,為未來的研究和應用提供了新的可能性。代碼可在https://github.com/G-U-N/Gen-L-Video找到。
我們介紹了 SwiftSage,這是一個新穎的代理人框架,靈感來自於人類認知的雙系統理論,旨在在複雜互動推理任務中擅長行動規劃。SwiftSage 將行為克隆和提示大型語言模型(LLMs)的優勢相結合,以提高任務完成性能。該框架包括兩個主要模塊:Swift 模塊代表快速直覺思考,而 Sage 模塊則模擬深思熟慮的思維過程。Swift 模塊是在神諭代理人的行動軌跡上進行微調的小型編碼器-解碼器 LM,而 Sage 模塊則使用像 GPT-4 這樣的LLMs進行子目標規劃和基礎建立。我們開發了一種啟發式方法,將這兩個模塊和諧地整合在一起,從而實現更高效和更穩健的問題解決過程。在來自 ScienceWorld 基準的 30 個任務中,SwiftSage明顯優於其他方法,如 SayCan、ReAct 和 Reflexion,展示了其在解決複雜現實任務中的有效性。
對語言模型(LMs)進行微調已經在各種下游任務上取得成功,但隨著LMs變得越來越大,反向傳播需要大量的記憶體,這是無法承受的。零階(ZO)方法原則上可以僅使用兩次前向傳播來估計梯度,但據推測對於優化大型模型來說速度極其緩慢。在這項工作中,我們提出了一種記憶體高效的零階優化器(MeZO),將經典的ZO-SGD方法調整為原地運行,從而以推理相同的記憶體占用量微調LMs。例如,使用單個A100 80GB GPU,MeZO可以訓練一個300億參數的模型,而使用反向傳播進行微調只能在相同預算下訓練一個27億LM。我們在各種模型類型(遮罩和自回歸LMs)、模型規模(高達660億)和下游任務(分類、多選和生成)上進行了全面的實驗。我們的結果表明,(1)MeZO明顯優於上下文學習和線性探測;(2)MeZO在多個任務上實現了與使用反向傳播進行微調相當的性能,記憶體減少高達12倍;(3)MeZO與全參數和參數高效調整技術(如LoRA和前綴調整)兼容;(4)MeZO可以有效地優化非可微目標(例如最大化準確性或F1)。我們用理論見解支持我們的實證發現,強調適當的預訓練和任務提示使MeZO能夠微調巨大的模型,盡管經典的ZO分析表明相反。
最近,開發基於擴散的文本到圖像生成模型,能夠生成連貫和形式良好的視覺文本,引起了廣泛關注。本文提出了一種名為GlyphControl 的新穎且高效的方法來應對這一任務。與現有方法(如 ByT5)依賴於字符感知文本編碼器並需要重新訓練文本到圖像模型不同,我們的方法利用額外的字形條件信息,以提升現成的 Stable-Diffusion 模型在生成準確視覺文本方面的性能。通過融入字形指令,用戶可以根據特定需求自定生成文本的內容、位置和大小。為促進視覺文本生成的進一步研究,我們構建了一個名為 LAION-Glyph 的訓練基準數據集。我們通過測量基於 OCR 的指標和生成視覺文本的 CLIP 分數,評估了我們方法的有效性。我們的實證評估表明,GlyphControl 在 OCR 準確性和 CLIP 分數方面優於最近的 DeepFloyd IF 方法,突顯了我們方法的功效。
隨著大型語言模型(LLMs)不斷被開發,其評估變得越來越重要但也更具挑戰性。本研究提出了「Chain-of-Thought Hub」,這是一個開源的評估套件,用於評估大型語言模型的多步推理能力。我們對這個設定感興趣有兩個原因:(1)從GPT和PaLM模型家族的行為中,我們觀察到複雜推理很可能是較弱和較強LLMs之間的關鍵區別因素;(2)我們預見大型語言模型將成為下一代計算平台,並促進基於LLMs的新應用生態系統的形成,這自然需要基礎模型執行通常涉及語言和邏輯操作組合的複雜任務。我們的方法是編制一系列具有挑戰性的推理基準,以追蹤LLMs的進展。我們目前的結果顯示:(1)模型規模明顯與推理能力相關;(2)截至2023年5月,Claude-v1.3和PaLM-2是唯一與GPT-4可比的兩個模型,而開源模型仍然落後;(3)LLaMA-65B的表現接近code-davinci-002,這表明通過成功的進一步發展,如從人類反饋中進行強化學習(RLHF),它有很大潛力接近GPT-3.5-Turbo。我們的結果還表明,為了追趕開源努力,社區可能應更加關注建立更好的基礎模型和探索RLHF。
近年來,迷人的 Minecraft 領域吸引了相當多的研究興趣,成為發展能夠在開放世界環境中運作的智能代理的豐富平台。然而,目前的研究領域主要集中在特定目標上,如熱門的「獲取鑽石」任務,並且尚未有效地推廣到更廣泛的任務範疇。此外,目前在「獲取鑽石」任務上的領先成功率約為 20%,突顯了現有方法中使用的基於強化學習(RL)的控制器的局限性。為應對這些挑戰,我們引入了《Minecraft 中的幽靈》(GITM),一個新穎的框架,將大型語言模型(LLMs)與基於文本的知識和記憶相結合,旨在在 Minecraft 中創建具有普遍能力的代理。這些代理配備了LLMs的邏輯和常識能力,可以熟練地在基於文本互動的複雜、稀疏獎勵環境中導航。我們制定了一組結構化的動作,並利用LLMs生成代理執行的行動計劃。結果,基於LLMs的代理明顯超越了先前的方法,在「獲取鑽石」任務的成功率上實現了顯著的+47.5%改善,展示了與傳統基於RL的控制器相比的卓越穩健性。值得注意的是,我們的代理是第一個獲得 Minecraft 主世界技術樹中所有物品的代理,展示了其廣泛的能力。GITM 在訓練時不需要任何GPU,但一個擁有32個CPU核心的單CPU節點就足夠了。這項研究展示了LLMs在開發處理長期、複雜任務並適應開放世界環境中的不確定性方面的潛力。請參閱項目網站 https://github.com/OpenGVLab/GITM。
大型語言模型(LLMs)顯著提升了機器生成文本的流暢度和多樣性。然而,這種進步也帶來了一個重要挑戰,即檢測給定文本的來源,而目前關於檢測方法的研究落後於LLMs的快速演進。傳統基於訓練的方法在靈活性方面存在局限,特別是在適應新領域時,它們往往缺乏解釋能力。為了解決這一問題,我們提出了一種新穎的無需訓練的檢測策略,稱為分歧N-Gram分析(DNA-GPT)。給定一段文本,我們首先將其在中間截斷,然後僅使用前部分作為LLMs的輸入,以重新生成新的剩餘部分。通過在黑盒或概率分歧中進行N-gram分析,我們可以清楚地說明機器生成文本和人類寫作文本之間的顯著差異。我們對來自OpenAI的最先進的LLMs進行了廣泛實驗,包括text-davinci-003、GPT-3.5-turbo和GPT-4,以及GPT-NeoX-20B和LLaMa-13B等開源模型。結果顯示,我們的零樣本方法在區分人類和GPT生成文本方面表現出最先進的性能,並在四個英語和一個德語數據集上優於OpenAI自己的分類器,後者是在數百萬文本上訓練的。此外,我們的方法提供了合理的解釋和證據來支持我們的主張,這是可解釋檢測的一個獨特特點。我們的方法還能夠抵抗修改後的文本攻擊,並且還可以解決模型來源問題。代碼可在https://github.com/Xianjun-Yang/DNA-GPT找到。
儘管擴散生成模型在文本轉圖像生成方面取得了巨大成功,但在圖像壓縮領域複製這一成功卻顯得困難。本文中,我們證明了擴散在給定比特率下可以顯著提高感知質量,並通過 FID 分數的評估超越了最先進的方法 PO-ELIC 和 HiFiC。我們採用了一種簡單但在理論上有動機的兩階段方法,該方法結合了針對 MSE 的自編碼器,然後是進一步基於分數的解碼器。然而,正如我們將展示的,實現細節至關重要,最佳設計決策可能與典型的文本轉圖像模型大相徑庭。