每日精選AI研究論文及翻譯
我們提出了SDXL,一種用於文本到圖像合成的潛在擴散模型。相較於之前的穩定擴散版本,SDXL利用了三倍大的UNet主幹:模型參數的增加主要來自更多的注意力塊和更大的交叉注意力上下文,因為SDXL使用了第二個文本編碼器。我們設計了多種新穎的條件方案,並在多個長寬比上訓練了SDXL。我們還引入了一個細化模型,用於通過一種事後圖像到圖像技術改善SDXL生成的樣本的視覺保真度。我們展示了SDXL相較於之前版本的穩定擴散有顯著改進的性能,並實現了與黑盒最先進圖像生成器相競爭的結果。為了促進開放研究並促進大型模型訓練和評估的透明度,我們提供了代碼和模型權重的訪問權限,網址為https://github.com/Stability-AI/generative-models
在大型語言模型時代,調整序列長度已成為一個關鍵需求。然而,現有方法在計算複雜度或模型表達能力方面存在困難,導致最大序列長度受限。在這項工作中,我們介紹了LongNet,一種Transformer變體,可以將序列長度擴展到超過10億個標記,而不會影響對較短序列的性能。具體來說,我們提出了膨脹注意力,隨著距離增長,它會指數級擴展關注範圍。LongNet具有顯著優勢:1)具有線性計算複雜度和標記之間的對數依賴性;2)它可以作為極長序列的分佈式訓練器;3)其膨脹注意力可直接替換標準注意力,可以與現有基於Transformer的優化方案無縫集成。實驗結果表明,LongNet在長序列建模和一般語言任務上表現出色。我們的工作為建模非常長的序列開啟了新的可能性,例如,將整個語料庫甚至整個互聯網視為一個序列。
儘管現有的大規模文本到圖像(T2I)模型能夠從詳細的文本描述中生成高質量圖像,但它們常常缺乏精確編輯生成或真實圖像的能力。本文提出了一種新穎的圖像編輯方法,DragonDiffusion,實現在Diffusion模型上進行拖曳風格的操作。具體來說,我們基於擴散模型中中間特徵的強相應性構建了分類器引導。通過特徵相應損失,它可以將編輯信號轉換為梯度,以修改擴散模型的中間表示。基於這種引導策略,我們還建立了多尺度引導,考慮了語義和幾何對齊。此外,我們添加了跨支自注意力,以保持原始圖像與編輯結果之間的一致性。通過高效設計,我們的方法實現了對生成或真實圖像的各種編輯模式,如物體移動、物體調整大小、物體外觀替換和內容拖曳。值得注意的是,所有編輯和內容保留信號均來自圖像本身,模型不需要微調或額外模塊。我們的源代碼將在 https://github.com/MC-E/DragonDiffusion 上提供。
最近,INSTRUCTEVAL 的發布為利用編碼器-解碼器或僅解碼器架構的大型語言模型(LLMs)的表現提供了寶貴的見解。有趣的是,儘管四年前推出,基於 T5 的 LLMs,如 FLAN-T5,仍然在需要一般問題解決能力的任務上優於最新的基於解碼器的 LLMs,如 LLAMA 和 VICUNA。這種性能差異可以歸因於三個關鍵因素:(1)預訓練數據,(2)骨幹架構,以及(3)指令數據集。在這份技術報告中,我們的主要重點是通過利用基於 LLAMA 的大型語言模型 VICUNA,該模型已在 ChatGPT 對話上進行了微調,來研究第三個因素的影響。為了實現這一目標,我們使用了一個名為 FLANMINI 的定製指令數據集對 VICUNA 進行了微調。該數據集包括 FLAN 這個大規模指令數據集的子集,以及從 ChatGPT/GPT-4 衍生的各種與代碼相關的數據集和對話數據集。這個數據集包含大量需要解決問題技能的任務。我們的實驗結果強烈表明,我們的模型 FLACUNA 的增強問題解決能力是通過在 FLAN 數據集上對 VICUNA 進行微調實現的,從而在 INSTRUCTEVAL 的眾多基準數據集上實現了顯著改進。FLACUNA 可在 https://huggingface.co/declare-lab/flacuna-13b-v1.0 公開獲取。
文件理解指的是自動從各種類型的數位文件中提取、分析和理解信息,例如網頁。現有的多模型大型語言模型(MLLMs),包括 mPLUG-Owl,在淺層無OCR文本識別方面展示了有前途的零-shot能力,表明它們在無OCR文件理解方面具有潛力。然而,沒有特定領域的訓練,這些模型往往會忽略細粒度的OCR特徵,例如複雜的表格或大塊文本,這些對於無OCR文件理解至關重要。在本文中,我們提出了基於 mPLUG-Owl 的 mPLUG-DocOwl 用於無OCR文件理解。具體來說,我們首先構建了一個包含各種視覺-文本理解任務的指導調整數據集。然後,通過我們統一的指導調整策略,將模型聯合訓練於僅語言、通用視覺-語言和文件指導調整數據集上,加強了無OCR文件理解能力。我們還建立了一個無OCR文件指導理解評估集 LLMDoc,以更好地比較模型在指導遵從性和文件理解方面的能力。實驗結果表明,我們的模型優於現有的多模態模型,展示了其強大的文件理解能力。此外,在沒有特定微調的情況下,mPLUG-DocOwl 在各種下游任務上具有良好的泛化能力。我們的代碼、模型、訓練數據和評估集可在 https://github.com/X-PLUG/mPLUG-DocOwl 上獲得。
即使為安全性和無害性而訓練的大型語言模型仍然容易受到惡意濫用,這一點從對早期版本的ChatGPT發動"越獄"攻擊並引發不良行為的情況中可見一斑。我們不僅僅認識到了這個問題,還調查了為何這些攻擊會成功以及它們是如何被創造出來的。我們提出了安全訓練的兩種失敗模式:競爭目標和泛化不匹配。競爭目標是指當模型的能力和安全目標存在衝突時,而泛化不匹配則是指安全訓練無法應用於存在能力的領域。我們利用這些失敗模式來指導越獄設計,然後評估包括OpenAI的GPT-4和Anthropic的Claude v1.3在內的最新模型,針對現有和新設計的攻擊進行評估。我們發現,儘管這些模型背後進行了大量的紅隊測試和安全訓練,但仍存在漏洞。值得注意的是,利用我們提出的失敗模式的新攻擊在模型的紅隊評估集合中的每個提示中都能成功,並且優於現有的臨時越獄。我們的分析強調了安全能力的平行性的必要性——即安全機制應該與底層模型一樣複雜——並反對僅通過規模化就能解決這些安全失敗模式的觀點。
最近對於大型語言模型(LLMs)如GPT4的進展展示出在根據圖像給出的開放式指令方面具有卓越的多模態能力。然而,這些模型的表現在很大程度上取決於設計選擇,如網絡結構、訓練數據和訓練策略,而這些選擇在文獻中尚未得到廣泛討論,這使得在這一領域中量化進展變得困難。為了解決這個問題,本文提出了一項系統性和全面的研究,從定量和定性兩方面對訓練這些模型進行研究。我們在控制設置下實現了超過20個變體。具體來說,對於網絡結構,我們比較了不同的LLM主幹和模型設計。對於訓練數據,我們調查了數據和抽樣策略的影響。對於指令,我們探討了多樣化提示對訓練模型的指令遵循能力的影響。對於基準測試,我們通過眾包貢獻了第一個我們所知的包括圖像和視頻任務的全面評估集。根據我們的研究結果,我們提出了Lynx,它在保持與現有開源GPT4風格模型相比最準確的多模態理解能力的同時,保持了最佳的多模態生成能力。
大型語言模型(LLMs)已展示出在各個領域的單一智能體任務中具有令人印象深刻的規劃能力。然而,它們在多智能體合作中的規劃和溝通能力仍不清楚,儘管這些是智能實體智能的關鍵技能。在本文中,我們提出了一個利用LLMs進行多智能體合作的新框架,並在各種實體環境中進行測試。我們的框架使實體智能體能夠有效地規劃、溝通和與其他實體智能體或人類合作,以完成長期任務。我們展示了最近的LLMs,如GPT-4,可以超越強大的基於規劃的方法,並使用我們的框架展現出新興的有效溝通,而無需進行微調或少量提示。我們還發現,使用自然語言溝通的基於LLM的智能體可以贏得更多信任並與人類更有效地合作。我們的研究強調了LLMs在實體人工智能中的潛力,並為未來多智能體合作的研究奠定了基礎。有關視頻可在項目網站https://vis-www.cs.umass.edu/Co-LLM-Agents/上找到。
大型語言模型(LLMs)展示了廣泛的應用潛力,從逐步規劃到常識推理,這些能力可能對機器人提供幫助,但容易產生自信的幻覺預測。在這項工作中,我們提出了一個名為KnowNo的框架,用於測量和調整基於LLM的規劃器的不確定性,使它們知道自己不知道並在需要時尋求幫助。KnowNo基於符合性預測理論,提供任務完成的統計保證,同時在複雜的多步規劃環境中最大程度地減少人類幫助。在涉及具有不同模糊模式的任務的各種模擬和真實機器人設置的實驗中(例如,從空間到數值不確定性,從人類偏好到Winograd模式),顯示KnowNo在提高效率和自主性方面優於現代基準線(可能涉及集成或廣泛提示調整),同時提供正式保證。KnowNo可以直接與LLMs一起使用,無需模型微調,並提出了一種有前景的輕量級不確定性建模方法,可以與基礎模型不斷增強的能力相互補充和擴展。網站:https://robot-help.github.io
最近的擴散Transformer(例如DiT)已經展示了它們在生成高質量2D圖像方面的強大效果。然而,目前仍在確定Transformer架構在3D形狀生成方面的表現是否同樣出色,因為先前的3D擴散方法主要採用了U-Net架構。為了彌合這一差距,我們提出了一種新穎的用於3D形狀生成的擴散Transformer,即DiT-3D,它可以直接在採用普通Transformer的體素化點雲上進行去噪過程。與現有的U-Net方法相比,我們的DiT-3D在模型大小上更具可擴展性,並且生成的質量更高。具體來說,DiT-3D採用了DiT的設計理念,但通過將3D位置和補丁嵌入結合到其中,以自適應地聚合來自體素化點雲的輸入。為了降低在3D形狀生成中自注意力的計算成本,我們在Transformer塊中加入了3D窗口注意力,因為由於體素的額外維度導致的增加的3D令牌長度可能導致高計算量。最後,使用線性和去體素化層來預測去噪的點雲。此外,我們的Transformer架構支持從2D到3D的有效微調,其中在ImageNet上預先訓練的DiT-2D檢查點可以顯著改善ShapeNet上的DiT-3D。在ShapeNet數據集上的實驗結果表明,所提出的DiT-3D在高保真度和多樣性的3D點雲生成方面實現了最先進的性能。特別是,我們的DiT-3D在Chamfer距離評估時將最先進方法的1-最近鄰準確度降低了4.59,並將覆蓋率指標提高了3.51。
Vision Transformers 的輸入標記在語義上幾乎沒有意義,因為它們被定義為輸入圖像的常規等大小補丁,而與其內容無關。然而,處理圖像中的均勻背景區域不應該需要像處理密集、混亂區域那樣多的計算。為了解決這個問題,我們提出了一種動態混合尺度標記方案,稱為 MSViT。我們的方法引入了一種條件閘控機制,為每個圖像區域選擇最佳的標記尺度,從而動態確定每個輸入的標記數量。所提出的閘控模塊輕量級,不受變壓器主幹選擇的影響,並在很少的訓練時期內(例如在 ImageNet 上的 20 個時期內)進行訓練,訓練開銷很小。此外,為了增強閘控在訓練期間的條件行為,我們引入了一種新的批次塑形損失的泛化方法。我們展示了我們的閘控模塊能夠學習有意義的語義,儘管它在粗粒度補丁級別上是局部操作的。我們在分類和分割任務上驗證了 MSViT,在這些任務中,它帶來了更好的準確性-複雜性平衡。
本研究探討開源大型語言模型(LLMs)在文本標註任務中的表現,並將其與像ChatGPT這樣的專有模型以及基於人力的服務(如MTurk)進行比較。儘管先前的研究顯示ChatGPT在眾多自然語言處理任務中表現出色,但像HugginChat和FLAN這樣的開源LLMs因其成本效益高、透明度高、可重現性強和優越的數據保護而受到關注。我們使用零編碼和少編碼方法以及不同溫度參數來評估這些模型在一系列文本標註任務中的表現。我們的研究結果顯示,儘管ChatGPT在大多數任務中表現最佳,但開源LLMs不僅在表現上優於MTurk,而且在特定任務中還展現出與ChatGPT競爭的潛力。
頭像在虛擬世界中創造互動和身臨其境的體驗中扮演著重要角色。在將這些角色動畫化以模仿使用者動作方面的一個挑戰是,商用AR/VR產品僅包括頭戴式設備和控制器,提供非常有限的使用者姿勢感應數據。另一個挑戰是,頭像可能具有不同於人類的骨架結構,它們之間的映射不明確。在這項研究中,我們解決了這兩個挑戰。我們引入了一種方法,可以即時從稀疏的人體感應數據將動作重定向到不同形態的角色。我們的方法使用強化學習來訓練一個策略,以控制物理模擬器中的角色。我們只需要人體動作捕捉數據進行訓練,而無需依賴於為每個頭像生成的動畫。這使我們能夠使用大規模的動作捕捉數據集來訓練通用策略,以即時跟踪來自真實且稀疏數據的未見過的使用者。我們展示了我們的方法在具有不同骨架結構的三個角色上的可行性:恐龍、類鼠生物和人類。我們展示了頭像的姿勢通常與使用者非常契合,盡管下半身沒有可用的感應信息。我們討論並消融了我們框架中的重要組件,特別是動力學重定向步驟、模仿、接觸和動作獎勵以及我們的非對稱演員-評論者觀察。我們進一步探討了我們的方法在各種情景中的穩健性,包括不平衡、舞蹈和運動動作。
本文介紹了彈性決策轉換器(EDT),這是對現有決策轉換器(DT)及其變體的重大進步。儘管DT聲稱能夠生成最優軌跡,實證證據表明它在軌跡拼接方面存在困難,這是一個過程,涉及從一組次優軌跡的最佳部分生成最優或接近最優的軌跡。所提出的EDT通過在測試時促進動作推斷期間的軌跡拼接來區分自身,實現方法是調整DT中維護的歷史長度。此外,EDT通過在先前軌跡為最優時保留較長的歷史,而在次優時保留較短的歷史來優化軌跡,使其能夠與更優軌跡“拼接”。廣泛的實驗證明了EDT在DT和Q學習方法之間的性能差距上的橋樑作用。特別是,在D4RL運動基準和Atari遊戲的多任務制度中,EDT優於基於Q學習的方法。視頻可在以下網址查看:https://kristery.github.io/edt/
在一般環境中,為具體代理裝備常識是使機器人成功完成複雜人類指令的重要因素。最近的大型語言模型(LLM)可以為代理在複雜任務的計劃生成中嵌入豐富的語義知識,但它們缺乏有關現實世界的信息,通常會導致不可行的行動序列。在本文中,我們提出了一種用於具體任務的任務計劃代理(TaPA),以物理場景約束進行基於視覺感知模型的計劃生成,代理根據場景中現有的物體來生成可執行計劃,並將LLM與視覺感知模型進行對齊。具體來說,我們首先構建了一個多模態數據集,其中包含室內場景、指令和行動計劃的三元組,我們為GPT-3.5提供了設計好的提示以及場景中現有物體的列表,以生成大量指令和相應的計劃。生成的數據被用於對預先訓練的LLM進行基於實際情況的計劃調整。在推理過程中,我們通過將開放詞彙對象檢測器擴展到在不同可達位置收集的多視圖RGB圖像中,來發現場景中的物體。實驗結果表明,我們的TaPA框架生成的計劃成功率比LLaVA和GPT-3.5高出相當大的幅度,這表明了在一般和複雜環境中具體任務計劃的實用性。
音樂被用來傳達情感,因此在自動音樂生成中生成情感音樂至關重要。先前關於情感音樂生成的研究直接使用標註的情感標籤作為控制信號,這會受到主觀偏見的影響:不同人可能會在同一音樂上標註不同的情感,而同一人在不同情境下可能會感受到不同的情感。因此,直接將情感標籤與音樂序列進行端對端的映射會混淆學習過程,並阻礙模型生成具有普遍情感的音樂。在本文中,我們提出了 EmoGen,一個情感音樂生成系統,它利用一組與情感相關的音樂屬性作為情感與音樂之間的橋樑,並將生成分為兩個階段:使用監督聚類的情感到屬性映射,以及使用自監督學習的屬性到音樂生成。這兩個階段都是有益的:在第一階段,聚類中心周圍的屬性值代表這些樣本的一般情感,有助於消除情感標籤的主觀偏見影響;在第二階段,生成完全與情感標籤解耦,因此不受主觀偏見的影響。主觀和客觀評估均顯示 EmoGen 在情感控制準確性和音樂質量方面優於先前方法,這證明了我們在生成情感音樂方面的優越性。EmoGen 生成的音樂樣本可通過此鏈接獲得:https://ai-muzic.github.io/emogen/,代碼可通過此鏈接獲得:https://github.com/microsoft/muzic/。