每日精選AI研究論文及翻譯
最近開源大型語言模型(LLM)的激增,如LLaMA、Falcon和Mistral,為人工智慧從業者和研究人員提供了多樣的選擇。然而,大多數LLM僅釋出部分產物,如最終模型權重或推論程式碼,而技術報告則越來越限制範圍,僅涉及高層次的設計選擇和表面統計。這些選擇阻礙了領域內的進展,降低了對LLM訓練透明度,迫使團隊重新發現訓練過程中的許多細節。我們提出LLM360,這是一個全面開源LLM的倡議,主張將所有訓練程式碼和數據、模型檢查點以及中間結果提供給社群使用。LLM360的目標是通過使端到端的LLM訓練過程對所有人透明且可重現,來支持開放和協作的人工智慧研究。作為LLM360的第一步,我們從頭開始預訓練了兩個7B參數的LLM,分別為Amber和CrystalCoder,包括它們的訓練程式碼、數據、中間檢查點和分析(網址:https://www.llm360.ai)。我們致力於通過這一開源努力不斷拓展LLM的界限。更大規模和更強大的模型正在進行中,並將在未來釋出。
在人類生成的數據上對語言模型(LMs)進行微調仍然是一種普遍的做法。然而,這些模型的性能通常受限於高質量人類數據的數量和多樣性。本文探討了在我們可以獲得標量反饋的任務上是否可以超越人類數據,例如在可以驗證正確性的數學問題上。為此,我們研究了一種基於期望-最大化的簡單自我訓練方法,我們稱之為ReST^{EM},其中我們(1)從模型中生成樣本並使用二元反饋對其進行篩選,(2)對這些樣本進行微調,然後(3)重複這個過程幾次。在使用PaLM-2模型對高級數學推理和應用編碼基準進行測試時,我們發現ReST^{EM}隨著模型大小的增加而有利地擴展,並明顯優於僅在人類數據上進行微調。總的來說,我們的研究結果表明,通過反饋進行自我訓練可以顯著減少對人類生成數據的依賴。
我們提出了一種基於Transformer的方法W.A.L.T,用於透過擴散建模實現逼真的視頻生成。我們的方法有兩個關鍵設計決策。首先,我們使用因果編碼器來共同壓縮圖像和視頻到統一的潛在空間,從而實現跨模態的訓練和生成。其次,為了記憶和訓練效率,我們使用了一個針對聯合空間和時空生成建模的窗口注意力架構。這些設計決策使我們能夠在已建立的視頻(UCF-101和Kinetics-600)和圖像(ImageNet)生成基準測試中實現最先進的性能,而無需使用分類器的引導。最後,我們還訓練了三個模型的級聯,用於文本到視頻生成任務,包括基本的潛在視頻擴散模型,以及兩個視頻超分辨率擴散模型,以在每秒8幀的情況下生成512乘以896分辨率的視頻。
最近,透過利用2D和3D擴散模型,從文本提示中創建3D內容已經展示出顯著的進展。雖然3D擴散模型確保了出色的多視角一致性,但由於有限的3D數據,它們生成高質量和多樣化的3D資產的能力受到了阻礙。相比之下,2D擴散模型找到了一種蒸餾方法,實現了出色的泛化和豐富的細節,而無需任何3D數據。然而,2D提升方法受困於固有的視角不可知模糊性,進而導致嚴重的多面鄧尼斯問題,即文本提示無法提供足夠的指導以學習一致的3D結果。我們研究如何充分利用易於獲取的粗略3D知識來增強提示並引導2D提升優化以進行精細化,而非重新訓練昂貴的視角感知模型。在本文中,我們提出了Sherpa3D,一個新的文本轉3D框架,同時實現高保真度、泛化性和幾何一致性。具體來說,我們設計了一對從3D擴散模型生成的粗略3D先驅中衍生出的引導策略:用於幾何保真度的結構引導和用於3D一致性的語義引導。通過這兩種引導方式,2D擴散模型豐富了3D內容,產生了多樣化和高質量的結果。大量實驗顯示,我們的Sherpa3D在質量和3D一致性方面優於最先進的文本轉3D方法。
現代大型視覺語言模型(LVLMs)享有相同的視覺詞彙--CLIP,可以涵蓋大多數常見的視覺任務。然而,對於一些需要密集和精細視覺感知的特殊視覺任務,例如文檔級OCR或圖表理解,特別是在非英語情境下,CLIP風格的詞彙可能在對視覺知識進行標記時效率低下,甚至遇到詞彙外問題。因此,我們提出了Vary,一種有效率且有效的方法來擴展LVLMs的視覺詞彙。Vary的程序自然地分為兩個部分:生成和整合新的視覺詞彙。在第一階段,我們設計了一個詞彙網絡以及一個微小的僅解碼器變壓器,通過自回歸生成所需的詞彙。接下來,我們通過將新的詞彙與原始詞彙(CLIP)合併來擴展基本視覺詞彙,使LVLMs能夠快速獲取新功能。與流行的BLIP-2、MiniGPT4和LLaVA相比,Vary在保持其基本能力的同時,享有更出色的精細感知和理解能力。具體而言,Vary在新文檔解析功能(OCR或標記轉換)方面表現出色,在DocVQA達到78.2%的ANLS,在MMVet達到36.2%。我們的代碼將在主頁上公開提供。
大型語言模型(LLMs)具有卓越的能力,僅需少量示例即可解決新任務,但它們需要訪問正確的工具。檢索增強生成(RAG)通過檢索給定任務的相關工具列表來解決這個問題。然而,RAG的工具檢索步驟要求查詢中包含所有必要的信息。這是一個限制,因為語義搜索,廣泛採用的工具檢索方法,在查詢不完整或缺乏上下文時可能失敗。為了解決這個限制,我們提出了RAG的上下文調整,它採用智能上下文檢索系統來提取改進工具檢索和計劃生成的相關信息。我們的輕量級上下文檢索模型使用數值、分類和習慣使用信號來檢索和排名上下文項目。我們的實證結果表明,上下文調整顯著增強了語義搜索,在上下文檢索和工具檢索任務的Recall@K分別實現了3.5倍和1.5倍的改進,並導致基於LLM的計劃器準確性提高了11.6%。此外,我們展示了我們提出的輕量級模型使用Reciprocal Rank Fusion(RRF)與LambdaMART優於基於GPT-4的檢索。此外,我們觀察到在工具檢索後,計劃生成時的上下文增強有助於減少幻覺。
我們報告了Alter3的開發,這是一個能夠利用大型語言模型(LLM),具體來說是GPT-4,產生自發運動的人形機器人。這一成就是通過將GPT-4整合到我們的專有安卓機器人Alter3中實現的,從而有效地通過Alter的身體運動來為LLM提供基礎。通常,低層機器人控制取決於硬件並且超出LLM語料庫的範圍,這對於直接基於LLM的機器人控制提出了挑戰。然而,在像Alter3這樣的人形機器人的情況下,通過將人類行為的語言表達映射到機器人的身體上,直接控制是可行的,而無需為每個身體部位進行明確編程。顯著的是,這種方法使Alter3能夠採取各種姿勢,例如“自拍”姿勢或“假裝成鬼”的姿勢,並且隨著時間生成動作序列,而無需為每個身體部位進行明確編程。這展示了機器人的零-shot學習能力。此外,口頭反饋可以調整姿勢,從而無需進行微調。Alter3生成動作的視頻可在以下網址查看:https://tnoinkwms.github.io/ALTER-LLM/
潛在擴散模型(LDM)捕捉潛在變數隨時間的動態演變,將模式和多模態融合在一個生成系統中。儘管LDM在各種應用中表現出色,例如文本到圖像生成,這得益於強大的文本編碼器和變分自編碼器,但在邊緣設備上部署大型生成模型的迫切需求促使人們尋找更緊湊而有效的替代方案。後訓練量化(PTQ)是壓縮深度學習模型操作尺寸的方法,但當應用於LDM時會遇到由於時間和結構複雜性而帶來的挑戰。本研究提出了一種有效量化策略,通過利用信號與量化噪聲比(SQNR)作為評估的關鍵指標,有效量化LDM。通過將量化差異視為相對噪聲,並識別模型的敏感部分,我們提出了一種包含全局和局部策略的高效量化方法。全局量化過程通過在敏感區塊上啟動更高精度的量化來減輕相對量化噪聲,而局部處理則解決了量化敏感和時間敏感模塊的具體挑戰。我們的實驗結果顯示,實施全局和局部處理可實現高效且有效的潛在擴散模型(LDM)後訓練量化(PTQ)。
我們介紹了Llama Guard,一種基於LLM的輸入輸出保護模型,專為人工智慧對話使用案例而設計。我們的模型包含一個安全風險分類法,這是一個有價值的工具,用於將LLM提示中發現的特定一組安全風險進行分類(即提示分類)。這個分類法還對LLM生成的對這些提示的回應進行分類起著關鍵作用,我們稱這個過程為回應分類。為了進行提示和回應分類,我們精心收集了一個高質量的數據集。Llama Guard是一個Llama2-7b模型,經過我們收集的數據集進行了指令微調,儘管數據量較少,但在現有基準測試中表現出色,如OpenAI的審查評估數據集和ToxicChat,其表現與當前可用的內容審查工具相當或超越。Llama Guard作為一種語言模型,執行多類分類並生成二進制決策分數。此外,Llama Guard的指令微調允許任務的定制和輸出格式的適應。這一功能增強了模型的能力,例如使得能夠調整分類法類別以符合特定用例,並促進零樣本或少樣本提示與輸入中不同分類法的使用。我們正在提供Llama Guard模型權重,並鼓勵研究人員進一步發展和適應,以滿足人工智慧安全社區不斷發展的需求。
預訓練的大型語言模型(LLMs)需要進行微調,以提高其對自然語言指令的響應能力。聯邦學習(FL)提供了一種方法,可以利用終端設備上豐富的數據進行微調,同時不會危及數據隱私。大多數現有的用於LLMs的聯邦微調方法依賴於參數高效的微調技術,這些技術可能無法達到通過完整參數調整所能達到的性能高度。然而,與完整參數調整相關的通信開銷對於服務器和客戶端來說過高。本研究介紹了FedKSeed,一種採用零階優化(ZOO)與一組隨機種子的新方法。它使得可以在設備上直接進行十億級LLMs的聯邦完整參數微調。我們的方法顯著降低了服務器和客戶端之間的傳輸需求,僅需傳輸少量標量梯度和隨機種子,總共僅幾千字節。在此基礎上,我們開發了一種評估ZOO擾動對FL重要性的策略,允許概率差異化種子抽樣。這優先考慮對模型準確性影響更大的擾動。通過六種不同LLMs、數據集和數據分區的實驗,顯示我們的方法在通信效率和新任務泛化方面優於現有的聯邦LLM微調方法。
已經提出了各種方法來利用大型語言模型(LLMs)進行自動駕駛。一種使用LLMs進行自動駕駛的策略涉及將周圍物體作為文本提示輸入到LLMs中,並附帶它們的坐標和速度信息,然後輸出車輛的後續移動。在將LLMs用於此類目的時,空間識別和規劃等能力至關重要。特別是,需要兩個基本能力:(1)空間感知決策,即從性坐標信息中識別空間並做出避免碰撞的決策的能力,以及(2)遵守交通規則的能力。然而,目前尚未對不同類型的LLMs如何準確處理這些問題進行定量研究。在本研究中,我們在自動駕駛的背景下定量評估了LLMs的這兩種能力。此外,為了對實際車輛實施這些能力的可行性進行概念驗證,我們開發了一個使用LLMs來駕駛車輛的系統。
Captum是PyTorch中用於模型可解釋性的全面庫,提供了一系列從可解釋性文獻中的方法,以增強用戶對PyTorch模型的理解。在本文中,我們介紹了Captum中專門設計用於分析生成語言模型行為的新功能。我們概述了可用功能以及其潛在應用於理解生成語言模型中學習關聯的示例應用。
大型語言模型(LLMs)展現了強大的文本生成能力。然而,對於十億規模的模型,要實現在特定提示或指令下取得最佳結果可能具有挑戰性。此外,不良行為,如毒性或幻覺,也可能出現。儘管更大型的模型(例如ChatGPT)可能展現出在緩解這些問題方面的優勢,但仍無法完全保證預防。在這項工作中,我們提出將文本生成正式化為未來受限生成問題,以最小化不良行為並強制忠實於指示。使用LLMs 實現未來受限滿足的估計,引導文本生成過程。我們的廣泛實驗證明了所提方法在三個不同的文本生成任務中的有效性:關鍵詞受限生成(Lin等,2020)、毒性減少(Gehman等,2020)以及問答中事實的正確性(Gao等,2023)。
本文我們從實證角度研究多任務學習的優化動態,特別關注管理一組具有顯著數據不平衡的任務。我們提出了一種簡單而有效的方法,即在高資源任務上進行預訓練,然後在高/低資源任務的混合上進行微調。我們對這種方法的好處進行了全面的實證研究和分析,顯示相對於標準靜態加權的性能折衷配置文件,它實現了一致的改進。我們分析了這種方法適用於哪些數據情況,並在神經機器翻譯(NMT)和多語言語言建模中實證展示了其改進。
MEGA是一種最近基於Transformer的架構,它利用線性遞歸運算子,其並行計算基於FFT,隨著序列長度L的增加,計算複雜度為O(LlogL)。我們通過將線性遞歸替換為一種特殊的時間卷積網絡,使其可以實現更大的感受野大小並使用更淺的網絡,將計算複雜度降至O(L)。得到的模型稱為TCNCA,即帶有分塊注意力的時間卷積網絡。我們在EnWik8語言建模、長距離競技(LRA)序列分類以及合成推理基準聯想回憶上評估了TCNCA。在EnWik8上,TCNCA表現優於MEGA,在訓練過程中前向/後向傳遞速度比MEGA快1.37倍/1.24倍,並達到更低的損失。TCNCA中使用的膨脹卷積在GPU中始終比基於FFT的並行遞歸更快,使其成為處理非常大序列長度的可擴展候選方案:在長達131k的序列上,它們的前向/後向傳遞速度最多快7.07倍/2.86倍。在LRA方面,TCNCA實現了平均1.28倍的推理加速,並且與MEGA實現的準確性相似。在聯想回憶中,我們發現,即使是TCNCA的簡化版本,沒有過多的乘法和加法交互作用,仍然在一系列序列長度和詞彙大小上優於或與MEGA競爭。