每日精選AI研究論文及翻譯
Amphion 是一個用於音訊、音樂和語音生成的工具包。它的目的在於支持可重現的研究,並幫助初級研究人員和工程師進入音訊、音樂和語音生成研究和開發領域。Amphion 提供了一個獨特的功能:經典模型或架構的視覺化。我們認為這些視覺化對於希望更好理解模型的初級研究人員和工程師是有益的。Amphion 的北極星目標是提供一個研究將任何輸入轉換為一般音訊的平台。Amphion 設計用於支持個別生成任務。除了特定的生成任務外,Amphion 還包括幾個聲碼器和評估指標。聲碼器是產生高質量音訊信號的重要模組,而評估指標對於確保生成任務中的一致指標至關重要。在本文中,我們對 Amphion 進行了高層級概述。
回答複雜的自然語言問題通常需要多步推理和整合外部信息。一些系統已將知識檢索與大型語言模型(LLM)結合起來,以回答此類問題。然而,這些系統存在各種失敗情況,我們無法直接對其進行端對端訓練以修復這些失敗,因為與外部知識的交互是不可微分的。為了解決這些缺陷,我們定義了一種具有推理和對外部知識採取行動能力的ReAct風格LLM代理。我們通過類似ReST的方法進一步完善代理,該方法在先前的軌跡上進行迭代訓練,採用增量批強化學習與人工智能反饋,以持續自我改進和自我蒸餾。從提示的大型模型開始,經過算法僅兩次迭代後,我們可以生成一個經過微調的小型模型,在具有兩個數量級更少參數的挑戰性組合問答基準上實現可比的性能。
擴散模型在各種後續生成任務中取得了顯著成功,但在重要且具挑戰性的表情豐富的說話頭部生成方面仍未得到充分探索。在這項工作中,我們提出了一個名為DreamTalk 的框架來填補這一空白,該框架採用細緻的設計來發揮擴散模型在生成表情豐富的說話頭部方面的潛力。具體而言,DreamTalk 包括三個關鍵組件:一個去噪網絡、一個風格感知的唇部專家和一個風格預測器。基於擴散的去噪網絡能夠穩定地合成出具有多樣表情的高質量音頻驅動的面部運動。為了增強唇部運動的表現力和準確性,我們引入了一個風格感知的唇部專家,可以在引導唇調同步的同時注意講話風格。為了消除對表情參考視頻或文本的需求,我們使用了額外的基於擴散的風格預測器,可以直接從音頻中預測目標表情。通過這種方式,DreamTalk 能夠利用強大的擴散模型有效生成表情豐富的面部,並減少對昂貴風格參考的依賴。實驗結果表明,DreamTalk 能夠生成具有多樣說話風格的逼真說話面部,實現準確的唇部運動,超越現有的最先進對手。
分割任務模型(SAM)解決了兩個實際但具有挑戰性的分割任務:分割任何物體(SegAny),利用特定點來預測感興趣單個物體的遮罩,以及分割所有物體(SegEvery),預測圖像上所有物體的遮罩。SegAny對SAM而言速度較慢的原因在於其龐大的圖像編碼器,MobileSAM通過解耦合知識蒸餾來解決這個問題。然而,SegEvery與SAM的效率瓶頸在於其遮罩解碼器,因為它需要首先生成大量具有冗餘網格搜索提示的遮罩,然後進行過濾以獲得最終有效遮罩。我們建議通過直接生成僅具有效提示的最終遮罩來提高其效率,這可以通過物體發現獲得。我們提出的方法不僅有助於將遮罩解碼器的總時間至少減少16倍,還實現了卓越的性能。具體而言,我們的方法在LVIS數據集上的零樣本物體提議中,使用遮罩AR@K指標實現了平均性能提升3.6%(42.5%與38.9%)。定性結果顯示,我們的方法生成了精細的遮罩,同時避免了對物體的過度分割。這個旨在實現比原始SAM更快速SegEvery的項目被稱為MobileSAMv2,以區別於針對更快速SegAny的MobileSAM。此外,我們展示了我們的新提示抽樣也與MobileSAM中的蒸餾圖像編碼器相容,為高效的SegAny和SegEvery提供了統一框架。代碼可在MobileSAM項目的相同鏈接中找到。
本文並非為了尋求關注機制內的創新而動機。相反地,它專注於克服現有點雲處理背景下準確性和效率之間的折衷,利用規模的威力。從最近在3D大規模表示學習方面的進展中汲取靈感,我們認識到模型性能更多受規模而非精細設計的影響。因此,我們提出了Point Transformer V3(PTv3),它將簡潔和效率置於優先位置,而不是準確性,這些機制在經過擴展後對整體性能的影響較小,例如將精確的鄰居搜索替換為具有特定模式組織的點雲的高效序列化鄰居映射。這一原則實現了顯著的擴展,將感知域從16擴展到1024個點,同時保持效率(與其前身PTv2相比,處理速度增加了3倍,記憶效率提高了10倍)。PTv3在涵蓋室內和室外場景的20多個下游任務中取得了最先進的結果。通過多數據集聯合訓練進一步增強,PTv3將這些結果推向更高水平。
擴散模型中的一個關鍵組件是用於噪音預測的 UNet。雖然有幾項研究探討了 UNet 解碼器的基本特性,但其編碼器在很大程度上仍未被探索。在這項研究中,我們進行了對 UNet 編碼器的首次全面研究。我們通過實證分析編碼器特徵,並就其在推論過程中的變化提供了重要問題的見解。特別是,我們發現編碼器特徵變化較為平緩,而解碼器特徵在不同時間步之間存在顯著變化。這一發現啟發我們在某些相鄰時間步中省略編碼器,並循環重複使用先前時間步中的編碼器特徵供解碼器使用。基於這一觀察,我們引入了一種簡單而有效的編碼器傳播方案,以加速對各種任務的擴散抽樣。通過我們的傳播方案,我們能夠在某些相鄰時間步中並行執行解碼器。此外,我們引入了一種先前噪音注入方法,以改善生成圖像中的紋理細節。除了標準的文本到圖像任務外,我們還在其他任務上驗證了我們的方法:文本到視頻、個性化生成和參考引導生成。在不使用任何知識蒸餾技術的情況下,我們的方法將 Stable Diffusion(SD)和 DeepFloyd-IF 模型的抽樣速度分別提高了 41% 和 24%,同時保持高質量的生成性能。我們的程式碼可在 https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion} 中找到。
基於Transformer的大型語言模型(LLMs)通常對文本輸入的長度進行限制,以確保生成流暢且相關的回應。這種限制限制了它們在涉及長文本的情境中的應用。我們提出了一種新穎的語義壓縮方法,使其能夠泛化到長度為原始文本的6-8倍的文本,而無需承擔顯著的計算成本或需要微調。我們提出的框架靈感來自信息理論中的源編碼,利用預訓練模型來減少長輸入的語義冗余,然後將其傳遞給LLMs進行下游任務。實驗結果表明,我們的方法有效地擴展了LLMs的上下文窗口,涵蓋問答、摘要、少樣本學習和信息檢索等一系列任務。此外,所提出的語義壓縮方法在減少相關計算開銷的同時,在文本生成中展現出一致的流暢性。
我們展示現有的在大型語言模型(LLM)激活上的無監督方法並未發現知識,而似乎是發現最突出的激活特徵。無監督知識引出的概念是知識滿足一致性結構,可用於發現知識。我們首先在理論上證明任意特徵(不僅僅是知識)滿足特定領先的無監督知識引出方法的一致性結構,即對比一致搜索(Burns等人 - arXiv:2212.03827)。然後,我們提出一系列實驗,展示無監督方法在某些情況下導致分類器並非預測知識,而是預測不同突出特徵。我們得出結論,現有用於發現潛在知識的無監督方法是不足夠的,我們提供了用於評估未來知識引出方法的理智檢查。從概念上講,我們假設這裡探討的識別問題,例如區分模型的知識和模擬角色的知識,將持續存在於未來的無監督方法中。
分數蒸餾採樣(SDS)在條件3D內容生成方面表現出卓越的性能。然而,對SDS公式的全面理解仍然不足,阻礙了3D生成的發展。在本研究中,我們將SDS解釋為三個功能組成部分的組合:模式解耦、模式尋找和減少變異的術語,並分析每個術語的特性。我們指出,由於監督術語的固有缺陷,問題如過度平滑和色彩飽和是由SDS引起的,並揭示SDS引入的減少變異術語是次優的。此外,我們闡明了採用大型無分類器引導(CFG)尺度進行3D生成的原因。基於分析,我們提出了一種簡單而有效的方法,名為穩定分數蒸餾(SSD),該方法可以策略性地組織每個術語,以實現高質量的3D生成。大量實驗驗證了我們方法的功效,展示了其生成高保真度3D內容的能力,即使在最具挑戰性的NeRF表示條件下,也不會出現過度平滑和過度飽和等問題。
最近,神經輻射場(Neural Radiance Field,NeRF)及其變體已成為成功的方法,用於新視角合成和3D場景重建。然而,大多數目前的NeRF模型要麼通過使用大型模型大小來實現高準確性,要麼通過權衡準確性來實現高內存效率。這限制了任何單個模型的應用範圍,因為高準確性模型可能不適合於低內存設備,而內存高效模型可能無法滿足高質量要求。為此,我們提出了SlimmeRF,一個允許在模型大小和準確性之間進行即時測試時間權衡的模型,通過減輕使模型同時適用於不同計算預算的情況。我們通過一種新提出的名為Tensorial Rank Incrementation(TRaIn)的算法實現了這一點,該算法在訓練期間逐漸增加模型的張量表示的秩。我們還觀察到,我們的模型在稀疏視圖情況下允許更有效的權衡,有時甚至在瘦身後實現更高的準確性。我們歸功於這樣一個事實,即錯誤信息(如浮體)往往存儲在對應於較高秩的組件中。我們的實現可在https://github.com/Shiran-Yuan/SlimmeRF找到。
發展能夠與使用者溝通的人工智慧模型所需的高質量對話數據集至關重要。促進聊天機器人與使用者之間更深入互動的一種方式是通過人物角色,即使用者性格、動機和行為的方面,提供洞察。在多樣化和全面的基於人物角色的數據集上訓練自然語言處理(NLP)模型可以導致創建與使用者建立更深層聯繫並保持其參與度的對話模型。在本文中,我們利用大型語言模型(LLMs)的能力從種子數據集創建一個大型高質量的對話數據集。我們提出了一個生成器-評論家架構框架,用於擴展初始數據集,同時提高其對話的質量。生成器是一個被提示輸出對話的LLM。評論家由一組專家LLMs組成,控制生成對話的質量。這些專家選擇最佳的生成對話,然後我們用來改進生成器。我們發布了一個名為合成人物角色對話(Synthetic-Persona-Chat)的數據集,其中包含從人物角色對話(Persona-Chat)中種子生成的20k對話。我們通過廣泛實驗評估了合成人物角色對話和我們的生成框架在不同維度上的質量,觀察到在圖靈測試中,合成人物角色對話與人物角色對話的失敗率在三次迭代中從17.2%降至8.8%。
本系列的目標是記錄機器學習領域中當前的觀點和問題,並隨著時間的推移進行更新。計劃定期舉辦這項調查,直到人工智能奇點、紙夾狂熱驅動的世界末日,並保持一份最新的主題問題清單,每期訪問新的社區成員。在本期中,我們探討了人們對可解釋人工智能、現代自然語言處理中基準測試的價值、對理解深度學習進展的狀況以及學術界的未來的看法。