每日精選AI研究論文及翻譯
Transformer架構有兩個主要的非嵌入式組件:注意力和前饋網路(FFN)。注意力捕捉單詞之間的相互依賴性,而不受其位置的影響,而FFN則對每個輸入標記進行非線性轉換。在這項工作中,我們探討了FFN的作用,發現儘管它佔據模型參數的相當大比例,但它是高度冗餘的。具體來說,我們能夠通過刪除解碼器層上的FFN並在編碼器之間共享單個FFN,從而大幅減少參數的數量,同時僅略微降低準確性。最後,我們通過增加共享FFN的隱藏維度,將這種架構恢復到其原始大小,實現了在準確性和延遲方面相對於原始Transformer Big的實質增益。
先前針對人類生成的可動畫3D感知生成對抗網絡主要集中在人類頭部或全身。然而,在現實生活中,僅有頭部的影片相對不常見,而全身生成通常無法控制面部表情,並且在生成高質量結果方面仍存在挑戰。為了應用於影片頭像,我們提出了一種可動畫3D感知生成對抗網絡,可生成具有可控面部表情、頭部姿勢和肩膀運動的肖像圖像。這是一種在未結構化2D圖像集合上訓練的生成模型,而無需使用3D或影片數據。對於新任務,我們基於生成輻射流形表示法,並配備了可學習的面部和頭肩變形。提出了雙攝像頭渲染和對抗學習方案,以提高生成面部的質量,這對於肖像圖像至關重要。開發了一個姿勢變形處理網絡,用於生成具有挑戰性區域(如長髮)的合理變形。實驗表明,我們的方法在未結構化2D圖像上訓練後,可以生成具有所需控制不同特性的多樣且高質量的3D肖像。
近來,大型語言模型(LLMs)展現出了非凡的能力,能夠理解人類意圖、進行推理,並設計類似規劃的行為。為了進一步發揮LLMs的能力來完成複雜任務,目前越來越多的趨勢是建立代理程式框架,為LLMs(如ChatGPT)配備工具使用能力,以連接大量外部API。在這項工作中,我們介紹了ModelScope-Agent,這是一個基於開源LLMs作為控制器的通用且可定製的代理程式框架,用於真實應用。它提供了一個用戶友好的系統庫,具有可定製的引擎設計,支持在多個開源LLMs上進行模型訓練,同時也以統一方式實現與模型API和常見API的無縫集成。為了賦予LLMs工具使用能力,提出了一個全面的框架,涵蓋工具使用數據收集、工具檢索、工具註冊、記憶控制、定製模型訓練以及實際應用的評估。最後,我們展示了ModelScopeGPT,這是基於ModelScope-Agent框架的ModelScope社群的真實世界智能助理,能夠將開源LLMs與超過1000個公共AI模型以及ModelScope中的本地化社群知識相連接。ModelScope-Agent庫https://github.com/modelscope/modelscope-agent 和在線演示https://modelscope.cn/studios/damo/ModelScopeGPT/summary 現已公開提供。
從照片中重建材料是3D內容創建民主化的關鍵組成部分。我們提議將這個不透明的問題定義為一個受控合成問題,利用生成式深度網絡的最新進展。我們提出了ControlMat方法,通過給定一張具有不受控制照明的照片作為輸入,條件一個擴散模型以生成可信的、可平鋪的、高分辨率的基於物理的數字材料。我們仔細分析了多通道輸出的擴散模型的行為,調整取樣過程以融合多尺度信息,並引入滾動擴散,以實現平鋪性和高分辨率輸出的補丁擴散。我們的生成方法進一步允許探索各種可能對應於輸入圖像的材料,減輕未知照明條件的影響。我們展示了我們的方法優於最近的推斷和潛在空間優化方法,並仔細驗證了我們的擴散過程設計選擇。補充材料和更多細節可在以下網址獲得:https://gvecchio.com/controlmat/。
透過人類反饋的強化學習(RLHF)已通過將模型與人類偏好對齊,從而革新了語言建模。然而,在RL階段中,Proximal Policy Optimization(PPO)需要超過Supervised Fine-Tuning(SFT)的3倍記憶體,這使得對大多數從業者來說難以應用。為了解決這個問題,我們對PPO的記憶體使用、性能和訓練時間進行了全面分析,並提出了一系列減少記憶體使用的技術。我們首先通過將SFT和Reward模型整合,然後在訓練期間動態關閉LoRA,提出了Hydra-RLHF。我們的實驗結果顯示:1. 在PPO中使用LoRA可將其記憶體使用量降至小於SFT,同時改善了對四個公共基準的對齊性;2. Hydra-PPO將LoRA-PPO每個樣本的延遲降低高達65%,同時保持其性能。我們的結果表明,Hydra-PPO是一個簡單且有前景的解決方案,可以更廣泛地促進RLHF的應用。
語音傳達的資訊比純文字更豐富,因為同一個詞語可以透過不同的聲音表達多樣的資訊。相較於依賴語音提示(參考語音)以實現聲音變異性的傳統文本轉語音(TTS)方法,使用文本提示(描述)更為用戶友善,因為語音提示可能難以找到,甚至可能根本不存在。基於文本提示的TTS方法面臨兩個挑戰:1)一對多問題,即文本提示無法描述所有有關聲音變異性的細節;2)文本提示數據集的有限可用性,需要供應商和大量的數據標記成本來為語音編寫文本提示。在本研究中,我們介紹了PromptTTS 2來應對這些挑戰,該系統使用變異網絡提供文本提示未捕捉到的聲音變異信息,並使用提示生成管道利用大型語言模型(LLM)來構建高質量的文本提示。具體而言,變異網絡根據文本提示的表示預測從參考語音中提取的表示(包含有關聲音的完整信息)。對於提示生成管道,它使用語音理解模型從語音中識別聲音屬性(例如性別、速度),並利用大型語言模型根據識別結果生成文本提示。在一個大規模(44K小時)的語音數據集上進行的實驗表明,與先前的工作相比,PromptTTS 2生成的聲音與文本提示更一致,支持多樣聲音變異性的抽樣,從而為用戶提供更多語音生成選擇。此外,提示生成管道生成高質量的提示,消除了大量標記成本。PromptTTS 2的演示頁面可在線上找到:https://speechresearch.github.io/prompttts2。
視頻外描法旨在充分完成視頻幀邊緣的缺失區域。與圖像外描法相比,視頻外描法面臨額外挑戰,因為模型應保持填充區域的時間一致性。本文介紹了一種用於視頻外描法的遮罩式3D擴散模型。我們使用遮罩建模技術來訓練3D擴散模型。這使我們能夠使用多個引導幀來連接多個視頻片段推斷的結果,從而確保時間一致性並減少相鄰幀之間的抖動。同時,我們提取視頻的全局幀作為提示,並通過交叉注意力引導模型獲取當前視頻片段以外的信息。我們還引入了一種混合粗到細的推斷流程來緩解藝術品積累問題。現有的粗到細流程僅使用填充策略,這會導致降級,因為稀疏幀的時間間隔太大。我們的流程受益於遮罩建模的雙向學習,因此在生成稀疏幀時可以採用填充和插值的混合策略。實驗表明,我們的方法在視頻外描任務中取得了最先進的結果。更多結果可在我們的網站https://fanfanda.github.io/M3DDM/ 上查看。
本文提出了一種無需 LoRA 的風格化圖像生成方法,該方法以文本提示和風格參考圖像作為輸入,並在單次通過中生成輸出圖像。與現有方法依賴為每種風格訓練單獨的 LoRA 不同,我們的方法可以適應各種風格,並使用統一模型。然而,這帶來了兩個挑戰:1)提示失去了對生成內容的可控性,2)輸出圖像繼承了風格參考圖像的語義和風格特徵,損害了其內容的忠實度。為了應對這些挑戰,我們引入了 StyleAdapter,一個包含兩個組件的模型:雙路徑交叉注意力模塊(TPCA)和三種解耦策略。這些組件使我們的模型能夠分別處理提示和風格參考特徵,並減少風格參考中語義和風格信息之間的強耦合。StyleAdapter 能夠生成符合提示內容並採用參考風格(即使是未見過的風格)的高質量圖像,在單次通過中更靈活和高效,比以前的方法更靈活和高效。實驗已經進行,以證明我們的方法優於先前的作品。
我們考慮視覺消歧任務,即確定一對視覺上相似的圖像是否描繪相同或不同的3D表面(例如,對稱建築的同一側或相對側)。虛假圖像匹配指的是兩幅圖像觀察到不同但在視覺上相似的3D表面,這對人類來說可能難以區分,也可能導致3D重建算法生成錯誤結果。我們提出了一種基於學習的視覺消歧方法,將其制定為圖像對的二元分類任務。為此,我們引入了一個新的數據集Doppelgangers,用於解決這個問題,其中包含具有真實標籤的相似結構的圖像對。我們還設計了一種網絡架構,該架構將局部關鍵點和匹配的空間分佈作為輸入,從而更好地推理局部和全局線索。我們的評估顯示,我們的方法可以在困難情況下區分虛假匹配,並可以集成到SfM流程中以生成正確、消歧的3D重建。請查看我們的項目頁面以獲取代碼、數據集和更多結果:http://doppelgangers-3d.github.io/。
最近的架構發展使得循環神經網絡(RNNs)能夠在某些序列建模任務上達到甚至超越Transformer的性能。這些現代RNNs具有一個顯著的設計模式:由前向路徑相互連接的線性循環層,並帶有乘法閘控。在這裡,我們展示了搭載這兩個設計元素的RNNs如何精確實現(線性)自注意力,這是Transformer的主要構建模塊。通過對一組訓練過的RNNs進行逆向工程,我們發現在實踐中梯度下降發現了我們的構造。特別是,我們研究了訓練有素以解決簡單上下文學習任務的RNNs,這些任務是Transformer擅長的,並發現梯度下降使我們的RNNs具有Transformer使用的基於注意力的上下文學習算法。我們的研究結果突顯了神經網絡中乘法交互作用的重要性,並暗示某些RNNs可能在幕後意外地實現了注意力機制。
我們提出了對比特徵遮罩視覺轉換器(CFM-ViT)- 一種圖像-文本預訓練方法,實現了對開放詞彙對象檢測(OVD)的圖像和區域級表示的同時學習。我們的方法將遮罩自編碼器(MAE)目標結合到對比學習目標中,以改善用於定位任務的表示。與標準的MAE不同,我們在聯合圖像-文本嵌入空間中執行重建,而不是像傳統的MAE方法那樣在像素空間中進行,這使模型更好地學習區域級語義。此外,我們引入位置嵌入丟棄(PED)來解決圖像-文本預訓練和檢測微調之間的尺度變化,通過在預訓練期間隨機丟棄位置嵌入來實現。PED提高了檢測性能,並使得可以使用凍結的ViT骨幹作為區域分類器,防止在檢測微調期間遺忘開放詞彙知識。在LVIS開放詞彙檢測基準上,CFM-ViT實現了最先進的33.9 APr,超越最佳方法7.6個點,並實現更好的零樣本檢測轉移。最後,CFM-ViT獲得了強大的圖像級表示,在零樣本圖像-文本檢索基準中,在12個指標中有8個超越了最新技術。
本文介紹了一種學習解決機器人推理和規劃中連續約束滿足問題(CCSP)的方法。先前的方法主要依賴手工設計或學習產生器來處理特定約束類型,然後在違反其他約束時拒絕值分配。相比之下,我們的模型,即組合擴散連續約束求解器(Diffusion-CCSP),通過將其表示為因子圖並結合訓練用於對單個約束類型進行抽樣的擴散模型的能量,來導出CCSP的全局解。Diffusion-CCSP對已知約束的新組合表現出強大的泛化能力,並且可以集成到任務和運動規劃器中,制定包含具有離散和連續參數的動作的長視程計劃。項目網站:https://diffusion-ccsp.github.io/
本文討論在保留影片運動的同時修改影片外觀的問題。提出了一個名為 MagicProp 的新框架,將影片編輯過程分為兩個階段:外觀編輯和運動感知外觀傳播。在第一階段,MagicProp 從輸入影片中選擇一個單一幀,並應用圖像編輯技術來修改幀的內容和/或風格。這些技術的靈活性使得可以編輯幀內的任意區域。在第二階段,MagicProp 使用編輯後的幀作為外觀參考,並使用自回歸渲染方法生成其餘幀。為了實現這一目標,開發了一種基於擴散的條件生成模型,稱為 PropDPM,通過在參考外觀、目標運動以及先前外觀的條件下合成目標幀。自回歸編輯方法確保了生成影片的時間一致性。總的來說,MagicProp 結合了圖像編輯技術的靈活性和自回歸建模的優越時間一致性,實現了對輸入影片中任意區域的物件類型和美學風格進行靈活編輯,同時在幀之間保持良好的時間一致性。在各種影片編輯場景中進行了大量實驗,證明了 MagicProp 的有效性。
逆向設計指的是優化目標函數的輸入,以實現目標結果的問題。對於許多現實世界的工程問題,目標函數採用模擬器的形式,該模擬器預測系統狀態隨時間的演變,而設計挑戰則是優化導致目標結果的初始條件。最近在學習模擬方面的發展表明,圖神經網絡(GNNs)可用於準確、高效、可微的模擬器動態估計,並支持使用基於梯度或採樣的優化程序進行高質量的設計優化。然而,從頭開始優化設計需要許多昂貴的模型查詢,這些程序在非凸或高維問題上表現出基本失敗。在這項工作中,我們展示了如何使用去噪擴散模型(DDMs)有效解決逆向設計問題,並提出了一種粒子採樣算法以進一步提高其效率。我們在多個流體動力學設計挑戰上進行實驗,發現我們的方法相對於標準技術大幅減少了對模擬器的調用次數。
許多現實世界的操作任務由一系列彼此顯著不同的子任務組成。這種長視程、複雜任務凸顯了靈巧手的潛力,具有適應性和多功能性,能夠在不需要重新抓握或外部工具的情況下無縫地在不同功能模式之間過渡。然而,由於靈巧手的高維動作空間和長視程任務的複雜組合動力學,挑戰也隨之而來。我們提出了Sequential Dexterity,這是一個基於強化學習(RL)的通用系統,用於鏈接多個靈巧策略以實現長視程任務目標。該系統的核心是一個過渡可行性函數,逐步微調子策略以增強鏈接成功率,同時實現自主策略切換以從失敗中恢復並繞過多餘階段。儘管僅在模擬環境中訓練了幾個任務對象,我們的系統展示了對新物體形狀的泛化能力,並能夠零-shot轉移到配備靈巧手的現實世界機器人上。更多詳細信息和視頻結果可在https://sequential-dexterity.github.io找到。