每日精選AI研究論文及翻譯
大型語言模型(LLMs)在各種任務中表現出色,但它們依賴精心設計的提示,這往往需要大量人力。為了自動化這個過程,本文提出了一個新的離散提示優化框架,稱為EvoPrompt,它借鑒了進化算法(EAs)的概念,因為它們表現良好且收斂速度快。為了讓EAs能夠處理自然語言表達的離散提示,這些提示需要具有連貫性和易讀性,我們將LLMs與EAs相連接。這種方法使我們能夠同時利用LLMs強大的語言處理能力和EAs高效的優化性能。具體來說,EvoPrompt不涉及任何梯度或參數,從提示的一組群體開始,並根據進化算子在發展集上改進群體,迭代生成新的提示。我們針對包括GPT-3.5和Alpaca在內的閉源和開源LLMs進行提示優化,涵蓋了涵蓋語言理解和生成任務的9個數據集。EvoPrompt在自動提示生成方面明顯優於人工設計的提示和現有方法,分別提高了25%和14%。此外,EvoPrompt表明將LLMs與EAs相結合創造了協同效應,這可能激發對LLMs和傳統算法組合的進一步研究。
先前的研究觀察到,當將注意力 softmax 替換為像 ReLU 這樣的點對點激活時,準確性會下降。在視覺 transformer 的背景下,我們發現當除以序列長度時,可以減輕這種下降。我們在 ImageNet-21k 上訓練從小到大的視覺 transformer 的實驗表明,就計算的規模行為而言,ReLU-attention 可以接近或匹敵 softmax-attention 的性能。
神經網絡內部理解的一個障礙是多義性,即神經元似乎在多個語義上激活。多義性阻礙我們確定神經網絡內部操作的簡潔、人類可理解的解釋。多義性的一個假設原因是超位置,神經網絡通過將特徵分配給激活空間中的一個過完備方向集,而不是單個神經元,來表示比神經元更多的特徵。在這裡,我們嘗試識別這些方向,使用稀疏自編碼器來重建語言模型的內部激活。這些自編碼器學習一組稀疏激活的特徵,比起其他方法識別的方向更易解釋且單義,其中可解釋性是通過自動化方法衡量的。刪除這些特徵可以實現精確的模型編輯,例如,通過刪除代詞預測等功能,而比以往的技術更少地干擾模型行為。這項工作表明,可以使用可擴展的非監督方法解決語言模型中的超位置。我們的方法可能成為未來機械解釋性工作的基礎,我們希望這將實現更大的模型透明度和可操控性。
我們探討參數稀疏性對在大規模數據集上訓練的Transformer(即“基礎模型”)在視覺和語言領域中的擴展行為的影響。在這種情況下,我們確定了描述權重稀疏性、非零參數數量和訓練數據量之間關係的第一擴展定律,我們在ViT/JFT-4B和T5/C4模型和數據規模上通過實證方法進行了驗證。這些結果使我們能夠表徵“最佳稀疏度”,即對於給定有效模型大小和訓練預算而言產生最佳性能的稀疏度水平。對於固定數量的非零參數,我們確定了隨著用於訓練的數據量增加,最佳稀疏度也會增加。我們還將研究擴展到不同的稀疏結構(如硬件友好的n:m模式)和策略(如從預訓練的密集模型開始)。我們的研究結果揭示了在各種參數和計算設置中權重稀疏性的優勢和局限性,為利用稀疏性實現計算效率改進提供了理論理解和實際意義。
為了在具有長期目標的新環境中做出有效決策,跨越空間和時間尺度進行階層推理至關重要。這包括規劃抽象的子目標序列,對底層計劃進行視覺推理,並根據制定的計劃通過視覺-運動控制執行動作。我們提出了用於階層規劃的組合基礎模型(HiP),這是一個基礎模型,它利用分別在語言、視覺和動作數據上訓練的多個專家基礎模型聯合解決長期目標任務。我們使用一個大型語言模型來構建在環境中扎根的符號計劃,通過一個大型視頻擴散模型。生成的視頻計劃然後通過一個從生成的視頻中推斷動作的逆動力學模型扎根於視覺-運動控制。為了在這個層次結構內進行有效推理,我們通過迭代細化強制在模型之間保持一致性。我們在三個不同的長期目標桌面操作任務中展示了我們方法的功效和適應性。
儘管最近在文本轉語音(TTA)生成方面取得了進展,我們發現,像是AudioLDM這樣的最先進模型,訓練於類別分佈不平衡的數據集(如AudioCaps),在生成表現上存在偏見。具體而言,它們在生成常見音頻類別方面表現出色,而在罕見類別上表現不佳,因此降低了整體生成性能。我們將此問題稱為長尾文本轉語音生成。為解決此問題,我們提出了一種簡單的檢索增強方法,適用於TTA模型。具體來說,對於給定的輸入文本提示,我們首先利用對比語言音頻預訓練(CLAP)模型檢索相關的文本-音頻對。然後,所檢索音頻文本數據的特徵被用作額外條件,引導TTA模型的學習。我們通過我們提出的方法增強了AudioLDM,並將結果增強系統稱為Re-AudioLDM。在AudioCaps數據集上,Re-AudioLDM實現了1.37的最先進Frechet音頻距離(FAD),遠遠優於現有方法。此外,我們展示了Re-AudioLDM能夠為複雜場景、罕見音頻類別甚至未見過的音頻類型生成逼真的音頻,顯示其在TTA任務中的潛力。
文字到圖像擴散模型理解物體之間的空間關係,但它們是否僅從2D監督中表達了世界的真實3D結構?我們證明了是的,3D知識被編碼在像Stable Diffusion這樣的2D圖像擴散模型中,並且我們展示這種結構可以被用於3D視覺任務。我們的方法,視角神經文本反轉(ViewNeTI),控制從凍結的擴散模型生成的圖像中物體的3D視角。我們訓練一個小型神經映射器,以取得相機視角參數並預測文本編碼器的潛在變數;然後,這些潛在變數條件了擴散生成過程,以產生具有所需相機視角的圖像。 ViewNeTI自然地解決了新視角合成(NVS)。通過利用凍結的擴散模型作為先驗,我們可以用非常少的輸入視圖解決NVS;我們甚至可以進行單視圖新視角合成。與先前方法相比,我們的單視圖NVS預測具有良好的語義細節和照片逼真感。我們的方法非常適合建模稀疏3D視覺問題中固有的不確定性,因為它可以有效生成多樣的樣本。我們的視角控制機制是通用的,甚至可以在由用戶定義的提示生成的圖像中更改相機視角。