每日精選AI研究論文及翻譯
我們提出了一種可擴展的方法,通過自動為人類撰寫的文本標記相應的指令,來構建高質量的指令跟隨語言模型。我們的方法名為指令回譯,首先使用在少量種子數據上微調的語言模型和給定的網絡語料庫。種子模型用於通過為網絡文檔生成指令提示(自我增強)來構建訓練示例,然後從這些候選示例中選擇高質量示例(自我精選)。然後使用這些數據來微調一個更強大的模型。在我們方法的兩次迭代上微調LLaMa,可以得到一個模型,在Alpaca排行榜上優於所有其他基於LLaMa的模型,而不依賴蒸餾數據,展示了高效的自我對齊。
隨著越來越強大的大型語言模型的出現,人們對利用這些模型進行非正式對話和角色扮演應用表現出興趣。然而,現有的對話和角色扮演數據集通常無法捕捉真實世界角色扮演參與者通常展示的多樣和微妙的互動。為了應對這一限制並為這個快速增長的領域做出貢獻,我們介紹了一個部分合成的數據集,名為PIPPA(人與人工智能之間的個人互動對)。PIPPA是社區驅動的眾包努力的結果,涉及一群角色扮演愛好者。該數據集包含超過100萬個發話,分佈在26,000個對話會話中,為研究人員和人工智能開發人員提供了豐富的資源,以探索和完善在角色扮演情境下的對話人工智能系統。
訓練最先進的神經網絡需要高昂的計算成本和時間。模型規模被認為是實現和改進最先進技術的關鍵因素。增加神經網絡的規模通常需要從頭開始,通過隨機初始化模型的所有參數,因為這意味著改變架構參數,不允許從較小尺寸模型直接轉移知識。在這項工作中,我們提出了六種可組合的轉換,逐步增加基於Transformer的神經網絡的規模,同時保持功能性,從而允許根據需要擴展模型的容量。我們證明了每種轉換在最小初始化約束下確保精確功能保留。所提出的方法可以通過在訓練過程中逐步擴展架構,為更大更強大的模型提供高效的訓練流程。
大型語言模型(LLMs)的巨大成功鼓勵了對LLM增強自主代理(LAAs)的新興探索。一個LAA能夠利用其核心LLM生成動作並與環境互動,這有助於通過條件化過去的互動(如觀察和動作)來解決複雜任務。由於對LAA的研究仍然非常新穎,可用的探索有限。因此,我們對LAA在代理架構和LLM骨幹方面進行了全面比較。此外,我們提出了一種新策略,可以協調多個LAA,使每個勞動LAA專注於一種類型的動作,即BOLAA,其中一個控制器管理多個代理之間的通信。我們在決策和多步推理環境中進行模擬,全面證明了LAAs的能力。我們的性能結果為設計LAA架構、LLM的最佳選擇以及兩者的兼容性提供了量化建議。我們將我們的LAA實現代碼釋出給公眾,網址為https://github.com/salesforce/BOLAA。
過去一年來,在以文本提示的圖像生成方面取得了驚人的進展,其基礎是跨模態表示空間的概念,其中文本和圖像領域共同表示。在自動語音識別(ASR)中,這個想法被應用為聯合語音-文本編碼器,可以通過在未配對的語音和文本上進行訓練來擴展非常大的參數模型的容量。儘管這些方法顯示出潛力,但它們需要對語音和文本之間固有的序列長度不匹配進行特殊處理,通過上採樣啟發法或明確的對齊模型。在這項工作中,我們提供證據表明,聯合語音-文本編碼器通過忽略序列長度自然地實現跨模態一致的表示,並主張一致性損失可以寬恕長度差異,並簡單地假定最佳對齊。我們展示這樣的損失改善了大型單語和多語系統中下游的詞錯率(WER)。
分析網絡拓撲和通信圖在當代網絡管理中扮演著至關重要的角色。然而,缺乏一致性方法導致學習曲線陡峭,錯誤率增加,效率降低。本文介紹了一種新方法,以促進基於自然語言的網絡管理體驗,利用大型語言模型(LLMs)從自然語言查詢中生成特定任務代碼。該方法應對了可解釋性、可擴展性和隱私性方面的挑戰,讓網絡運營商可以檢查生成的代碼,消除了與LLMs共享網絡數據的需求,並集中於結合應用程序特定請求和通用程序合成技術。我們設計並評估了一個原型系統,使用基準應用程序展示了高準確性、成本效益以及使用互補程序合成技術進行進一步增強的潛力。