每日精選AI研究論文及翻譯
大型語言模型(LLMs)展現了整合多樣專家模型以應對複雜語言和視覺任務的巨大潛力。儘管它們在推動人工智慧生成內容(AIGC)領域方面具有重要意義,但它們在智能音頻內容創作方面的潛力尚未被探索。在這項工作中,我們解決了通過文本指導創建涵蓋語音、音樂和音效的故事情節的音頻內容的問題。我們提出了WavJourney,一個利用LLMs連接各種音頻模型進行音頻內容生成的系統。給定一個聽覺場景的文本描述,WavJourney首先提示LLMs生成專門用於音頻敘事的結構化腳本。音頻腳本包含多樣的音頻元素,根據它們的時空關係進行組織。作為音頻的概念表示,音頻腳本為人類參與提供了互動和可解釋的理由。隨後,音頻腳本被輸入腳本編譯器,將其轉換為一個計算機程序。程序的每一行調用一個特定任務的音頻生成模型或計算操作函數(例如,連接、混合)。然後執行計算機程序以獲得音頻生成的可解釋解決方案。我們展示了WavJourney在包括科幻、教育和廣播劇等各種現實場景中的實用性。WavJourney的可解釋和互動設計促進了人機共同創作在多輪對話中的實現,增強了音頻製作中的創造控制和適應性。WavJourney使人類想像具聲化,為多媒體內容創作開辟了新的創意途徑。
低秩適應(LoRA)通常用於微調大型語言模型(LLMs)以應用於新任務。本文研究LoRA的可組合性,以實現跨任務泛化,並介紹LoraHub,一個策略框架,旨在有目的地組合在不同任務上訓練的LoRA模塊,以達到在未知任務上實現適應性性能的目的。僅需從新任務中獲取一些示例,LoraHub即可實現多個LoRA模塊的流暢組合,消除了對人類專業知識的需求。值得注意的是,此組合既不需要額外的模型參數,也不需要梯度。我們從Big-Bench Hard(BBH)基準測試中得出的實證結果表明,LoraHub能夠有效模擬在少樣本情況下的上下文學習表現,無需在每個推理輸入旁邊提供上下文示例。我們研究的一個重要貢獻是促進LoRA社區的發展,用戶可以分享他們訓練的LoRA模塊,從而促進這些模塊應用於新任務。我們預計這一資源將擴大對通用智能和生產中的LLMs的訪問範圍,並推動相應的進步。代碼將在https://github.com/sail-sg/lorahub 提供。
大型語言模型(LLMs)在回答問題之前,若能逐步進行“思維鏈”(Chain-of-Thought,CoT)推理,其表現會更好,但目前尚不清楚所述推理是否忠實地解釋了模型實際推理的過程(即回答問題的方式)。我們通過檢驗在介入CoT時模型預測如何改變的假設,來探討CoT推理可能不忠實的原因(例如,通過引入錯誤或改寫來介入)。模型在不同任務中對CoT的條件預測答案的程度存在較大差異,有時會嚴重依賴CoT,而其他時候則主要忽略它。CoT的性能提升似乎並非僅來自於CoT在測試時的計算量增加,或是通過CoT特定措辭所編碼的信息。隨著模型變得更大更強大,它們在我們研究的大多數任務中產生的推理越來越不忠實。總的來說,我們的結果表明,若精心選擇模型大小和任務等情況,CoT可以是忠實的。
隨著生成式人工智能的進步,自主代理通過自然語言命令管理日常任務的潛力變得令人振奮。然而,目前的代理主要在簡化的合成環境中創建和測試,嚴重限制了真實世界情景的表現。在本文中,我們建立了一個用於代理命令和控制的環境,具有高度逼真和可重現性。具體而言,我們專注於在網站上執行任務的代理,並創建了一個包含四個常見領域的完全功能網站的環境:電子商務、社交論壇討論、協作軟件開發和內容管理。我們的環境豐富多彩,配備了工具(例如地圖)和外部知識庫(例如用戶手冊),以鼓勵類似人類的任務解決。基於我們的環境,我們釋出了一組旨在評估任務完成的功能正確性的基準任務。我們基準中的任務多樣,長期視角,旨在模擬人類在互聯網上經常執行的任務。我們設計並實施了幾個自主代理,整合了最新技術,如先思考後行動。結果顯示,解決複雜任務具有挑戰性:我們基於最佳GPT-4的代理僅實現了10.59%的端對端任務成功率。這些結果突顯了對強大代理的進一步發展的需求,目前最先進的語言模型在這些現實任務中表現遠非完美,而WebArena可用於衡量這種進展。我們的代碼、數據、環境重現資源和視頻演示可在https://webarena.dev/上公開獲得。
大型語言模型(LLMs)在各種量化推理和知識基準測試中展現出卓越的表現。然而,隨著LLMs得分不斷提高,許多這些基準測試的實用性正在下降,儘管在這些領域中尚未達到專家水準。我們引入了ARB,這是一個由多個領域中的高級推理問題組成的新型基準測試。ARB提供了比以往基準測試更具挑戰性的測試,其中包括數學、物理、生物學、化學和法律等問題。作為ARB的一部分,我們引入了一組具有挑戰性的數學和物理問題,這些問題需要高級符號推理和領域知識。我們對最近的模型(如GPT-4和Claude)在ARB上進行評估,並展示目前的模型在更具挑戰性的任務上得分低於50%。為了改進自動和輔助評估能力,我們引入了基於評分表的評估方法,使GPT-4能夠對自己的中間推理步驟進行評分。此外,我們對ARB的符號子集進行了人工評估,發現標註者和GPT-4評分表評估分數之間存在有希望的一致性。
傳統的推薦系統利用使用者的物品偏好歷史來推薦使用者可能喜歡的新內容。然而,現代對話界面允許使用者表達基於語言的偏好,提供了一種根本不同的偏好輸入模式。受到大型語言模型(LLMs)提示範式在最近取得的成功的啟發,我們研究了它們在基於物品和基於語言偏好下進行推薦的應用,並與最先進的基於物品的協同過濾(CF)方法進行比較。為了支持這一研究,我們收集了一個新的數據集,其中包含從使用者那裡獲得的基於物品和基於語言的偏好,以及他們對各種(有偏見的)推薦物品和(無偏見的)隨機物品的評分。在眾多的實驗結果中,我們發現LLMs在純粹基於語言偏好(無物品偏好)的情況下,在接近冷啟動情況下相對於基於物品的CF方法提供了有競爭力的推薦性能,儘管對於這特定任務沒有監督訓練(零-shot)或僅有少量標籤(少-shot)。這尤其令人鼓舞,因為基於語言偏好的表示比基於物品或向量表示更具可解釋性和可檢視性。
程式碼覆蓋率是一項廣泛使用的指標,用於量化在測試期間執行程式元素(如語句或分支)的程度。計算程式碼覆蓋率需要耗費大量資源,需要建構程式碼並執行,並為儀器化增加額外開銷。此外,計算任何程式碼片段的覆蓋率需要整個程式的上下文。利用機器學習來攤提這昂貴的過程可以降低程式碼覆蓋率的成本,只需要源代碼上下文,並且程式碼覆蓋率預測任務可以成為評估模型理解程式碼能力的新穎基準。我們提出了一個名為大型語言模型(LLMs)程式碼覆蓋率預測的新穎基準任務。我們將此任務正式化,以評估LLMs在理解程式碼執行方面的能力,即確定給定測試案例和輸入時哪些方法行被執行。我們通過執行來自HumanEval數據集的測試和程式碼,並收集程式碼覆蓋率信息,匯編並發布了一個名為COVERAGEEVAL的數據集。我們報告了用於程式碼相關任務的四種最先進的LLMs的性能,包括OpenAI的GPT-4和GPT-3.5-Turbo、Google的BARD和Anthropic的Claude,在程式碼覆蓋率預測任務上的表現。最後,我們認為程式碼覆蓋率作為指標和預訓練數據來源對LLM在軟體工程任務的整體性能是有價值的。
我們提出了Strivec,一種新穎的神經表示,將3D場景建模為一個輻射場,其中包含稀疏分佈和緊湊分解的本地張量特徵網格。我們的方法利用張量分解,遵循最近的TensoRF工作,來建模這些張量網格。與TensoRF不同,TensoRF使用全局張量並專注於它們的向量-矩陣分解,我們建議利用一組本地張量並應用經典的CANDECOMP/PARAFAC(CP)分解,將每個張量分解為三元向量,這些向量表達了沿空間軸的本地特徵分佈並緊湊編碼了本地神經場。我們還應用多尺度張量網格來發現幾何和外觀的共同特點,並利用在多個本地尺度上的三元向量分解來利用空間一致性。最終的輻射場特性是通過從所有尺度的多個本地張量中聚合神經特徵來回歸的。我們的三元向量張量稀疏分佈在實際場景表面周圍,通過快速粗略重建來發現,利用3D場景的稀疏性。我們展示了我們的模型可以在使用比以前的方法(包括TensoRF和Instant-NGP)更少的參數的情況下實現更好的渲染質量。
儘管許多現實世界的問題可能受益於強化學習,這些問題很少符合馬可夫決策過程(MDP)的模式:與環境互動通常很昂貴,並且指定獎勵函數具有挑戰性。受到這些挑戰的激勵,先前的研究已經發展出從轉換動態的樣本和高回報狀態示例中完全學習的數據驅動方法。這些方法通常從高回報狀態學習獎勵函數,使用該獎勵函數標記轉換,然後將離線強化學習算法應用於這些轉換。儘管這些方法在許多任務上可以取得良好的結果,但它們可能很複雜,通常需要正則化和時間差更新。在本文中,我們提出了一種基於示例的離線控制方法,該方法學習多步轉換的隱式模型,而不是獎勵函數。我們展示了這個隱式模型可以表示基於示例的控制問題的Q值。在一系列基於狀態和基於圖像的離線控制任務中,我們的方法優於使用學習獎勵函數的基準線;額外的實驗表明了隨著數據集大小的增加,改進了韌性和擴展性。