每日精選AI研究論文及翻譯
大型語言模型已成為一種多功能工具,但在應用於缺乏大型推論預算和大型領域內訓練集的任務時具有挑戰性。本研究對這些限制進行了形式化,並區分了四個重要變數:預訓練預算(用於在目標領域未知之前進行訓練)、專業預算(用於在目標領域已知之後進行訓練)、推論預算和領域內訓練集大小。在這些設置中,我們比較了機器學習文獻中的不同方法。受推論成本限制,我們找到了比訓練非常大型基本變壓器模型的標準做法更好的替代方案。特別是,我們發現超網絡和專家混合對於大型預訓練預算具有更好的困惑度,而在重要性抽樣數據集上訓練的小型模型對於大型專業預算具有吸引力。
大型語言模型(LLMs)的進步顯著推動了代碼生成領域的發展。先前的工作將強化學習(RL)與編譯器反饋相結合,以探索LLMs的輸出空間,從而提升代碼生成的質量。然而,LLMs生成的冗長代碼響應複雜的人類需求,使得RL探索變得困難。此外,由於單元測試可能無法覆蓋複雜代碼,因此通過使用這些未執行的代碼片段來優化LLMs是無效的。為應對這些挑戰,我們引入了StepCoder,一個用於代碼生成的新型RL框架,由兩個主要組件組成:CCCS通過將長序列代碼生成任務拆分為一系列代碼完成子任務來應對探索挑戰,而FGO則通過遮蔽未執行的代碼段來提供精細的優化。此外,我們進一步構建了APPS+數據集用於RL訓練,經手動驗證以確保單元測試的正確性。實驗結果表明,我們的方法提高了探索輸出空間的能力,並在相應基準測試中優於最先進的方法。
自其構想以來,規劃一直是人工智慧的核心追求之一,但早期的人工智能代理主要專注於受限制的環境,因為許多人類級別規劃所需的認知基礎不足。最近,由大型語言模型(LLMs)驅動的語言代理展示了有趣的能力,如工具使用和推理。這些語言代理是否能夠在超出先前人工智能代理範圍的更複雜環境中進行規劃?為了推進這一研究,我們提出了TravelPlanner,一個新的規劃基準,專注於旅行規劃,這是一個常見的現實世界規劃場景。它提供了一個豐富的沙盒環境,各種工具,可訪問近四百萬條數據記錄,以及1225個精心策劃的規劃意圖和參考計劃。全面評估顯示,目前的語言代理尚無法處理這些複雜的規劃任務-即使是GPT-4的成功率也僅為0.6%。語言代理難以保持任務一致,使用正確的工具收集信息,或跟踪多個約束條件。然而,我們指出,語言代理僅僅有可能應對這樣一個複雜問題本身就是一項非微不足道的進展。TravelPlanner為未來語言代理提供了一個具有挑戰性但有意義的測試平臺。
我們介紹了Pok\'eLLMon,這是首個以LLM實體化的代理人,在戰術戰鬥遊戲中實現了與人類相當的表現,如在Pok\'emon戰鬥中展示的。Pok\'eLLMon的設計包括三個關鍵策略:(i) 在情境中的強化學習,即時利用從戰鬥中獲得的基於文本的反饋來迭代地優化策略;(ii) 知識增強生成,檢索外部知識以對抗幻覺,使代理人能夠及時適當地行動;(iii) 一致的行動生成,以減輕代理人面對強大對手並希望逃避戰鬥時的恐慌切換現象。我們展示了與人類的線上戰鬥,證明了Pok\'eLLMon的人類般的戰鬥策略和及時決策,其在階梯比賽中獲勝率達到49\%,在邀請戰鬥中獲勝率達到56\%。我們的實現和可玩戰鬥日誌可在以下網址找到:https://github.com/git-disl/PokeLLMon。
在視頻合成中,生成豐富且可控制的運動是一個至關重要的挑戰。我們提出了一種名為Boximator的新方法,用於精細運動控制。Boximator引入了兩種約束類型:硬盒和軟盒。用戶使用硬盒在條件幀中選擇對象,然後使用任一類型的盒子在未來幀中粗略或嚴格地定義對象的位置、形狀或運動路徑。Boximator作為現有視頻擴散模型的插件。其訓練過程通過凍結原始權重並僅訓練控制模塊來保留基本模型的知識。為應對訓練挑戰,我們引入了一種新的自我跟踪技術,大大簡化了盒子-對象相關性的學習。從實證角度看,Boximator實現了最先進的視頻質量(FVD)分數,在兩個基本模型的基礎上取得了改進,並在納入盒約束後進一步增強。其強大的運動可控性通過邊界框對齊度量的急劇增加得到驗證。人類評估還表明,用戶更喜歡Boximator生成的結果,而不是基本模型。
Transformer是序列建模中佔主導地位的架構,但越來越多人對使用不依賴序列長度的固定大小潛在狀態的模型感興趣,我們稱之為「廣義狀態空間模型」(GSSMs)。在本文中,我們展示了雖然GSSMs在推理效率方面很有潛力,但在需要從輸入上下文進行複製的任務上,與Transformer模型相比存在局限性。我們從對簡單的字符串複製任務的理論分析開始,證明了雙層Transformer能夠複製指數長度的字符串,而GSSMs基本上受固定大小潛在狀態的限制。在實證方面,我們發現在需要複製上下文的合成任務中,Transformer在效率和泛化方面優於GSSMs。最後,我們評估了預訓練的大型語言模型,發現Transformer模型在從上下文複製和檢索信息方面明顯優於狀態空間模型。綜合這些結果,表明在實際感興趣的任務上,Transformer和GSSMs之間存在根本性差距。
儘管大型語言模型(LLMs)已展示其在複雜推理任務中的優異表現,但它們在動態、互動和競爭場景(如商業策略和股市分析)中的表現仍未得到充分探索。為彌補這一差距,我們正式探索LLMs的動態推理能力,以在快速變化的環境中進行決策。我們引入了兩個基於博弈理論的試點挑戰,模擬現實世界動態決策的複雜性。這些挑戰定義明確,能夠清晰、可控和精確地評估LLMs的動態推理能力。通過大量實驗,我們發現現有的推理方法在需要k層思考的動態環境中往往表現不佳,這是先前研究未能解決的關鍵概念。為了應對這一問題,我們提出了一種新穎的LLMs推理方法,名為「K層推理」。該方法採用對手的觀點,根據可用的歷史信息遞歸地應用k層思考,顯著提高了對手後續動作的預測準確性,並促進更具戰略性的決策。這項研究不僅為評估動態推理設立了堅實的定量基準,還顯著提升了LLMs在動態情境中的表現水平。
本技術報告描述了 nomic-embed-text-v1 的訓練,這是第一個完全可重現、開源、開放權重、開放數據、具有 8192 上下文長度的英文文本嵌入模型。在短文本和長文本任務中,它的表現均優於 OpenAI Ada-002 和 OpenAI text-embedding-3-small。我們在 Apache 2 許可證下釋出了訓練代碼和模型權重。與其他開源模型不同,我們釋出了一個訓練數據加載器,其中包含 2.35 億個經過精心策劃的文本對,可以實現對 nomic-embed-text-v1 的完全復制。您可以在以下位置找到復制模型的代碼和數據:https://github.com/nomic-ai/contrastors
大型模型的出現標誌著機器學習的新時代,通過利用龐大數據集來捕捉和綜合複雜模式,顯著優於較小模型。儘管取得了這些進展,但對於尺度化的探索,特別是在音頻生成領域,仍然受限,先前的努力並未擴展到高保真(HiFi)44.1kHz領域,並且在高頻領域存在光譜不連續性和模糊性問題,同時對域外數據缺乏魯棒性。這些限制限制了模型在包括音樂和歌聲生成在內的各種用例中的應用。我們的工作引入了通過可擴展生成對抗網絡(EVA-GAN)增強各種音頻生成,相對於先前最先進技術在光譜和高頻重建以及域外數據性能方面取得了顯著改進,實現了通過使用36,000小時的44.1kHz音頻、上下文感知模塊、人在迴路中的工件測量工具包和將模型擴展到約2億參數的HiFi音頻生成。我們的工作演示可在https://double-blind-eva-gan.cc 上查看。