每日精選AI研究論文及翻譯
我們提出了LongLoRA,一種有效的微調方法,可擴展預訓練大型語言模型(LLMs)的上下文大小,並具有有限的計算成本。通常,使用長上下文大小訓練LLMs在計算上是昂貴的,需要大量的訓練時間和GPU資源。例如,對長度為8192的上下文進行訓練需要自注意力層的計算成本增加16倍,相較於2048。在本文中,我們從兩個方面加快了LLMs的上下文擴展。一方面,儘管推論過程中需要密集的全局注意力,但通過稀疏的局部注意力可以有效且高效地進行模型微調。所提出的轉移短注意力有效地實現了上下文擴展,實現了與使用基本注意力進行微調相似性能的非微不足道的計算節省。特別是,它可以在訓練中僅用兩行程式碼實現,並在推論時是可選的。另一方面,我們重新審視了用於上下文擴展的參數高效微調模式。值得注意的是,我們發現LoRA對於上下文擴展在可訓練的嵌入和歸一化的前提下運作良好。LongLoRA在從7B/13B到70B的LLaMA2模型上展示了強大的實證結果。LongLoRA將LLaMA2 7B從4k上下文擴展到100k,或將LLaMA2 70B擴展到32k在單個8x A100機器上。LongLoRA擴展了模型的上下文,同時保留其原始架構,並且與大多數現有技術兼容,如FlashAttention-2。此外,為了使LongLoRA更實用,我們收集了一個名為LongQA的數據集,用於監督式微調。該數據集包含超過3k個長上下文問答對。
Transformer 首次出現在自然語言處理領域,後來遷移到計算機視覺領域,在那裡展現出在視覺任務中卓越的表現。然而,最近,保留網絡(RetNet)作為一種具有取代 Transformer 潛力的架構出現,引起了自然語言處理社區的廣泛關注。因此,我們提出了一個問題,即將 RetNet 的思想轉移到視覺領域是否也能為視覺任務帶來出色的表現。為了解決這個問題,我們將 RetNet 和 Transformer 結合起來提出了 RMT。受 RetNet 啟發,RMT 將明確的衰減引入到視覺骨幹中,將與空間距離相關的先前知識引入到視覺模型中。這種與距離相關的空間先驗允許明確控制每個標記可以參與的標記範圍。此外,為了降低全局建模的計算成本,我們將這個建模過程分解沿著圖像的兩個坐標軸。豐富的實驗表明,我們的 RMT 在各種計算機視覺任務中表現出色。例如,RMT 在 ImageNet-1k 上僅使用 4.5G FLOPs 就實現了 84.1% 的 Top1-acc。據我們所知,在所有模型中,當模型大小相似並且使用相同策略訓練時,RMT 實現了最高的 Top1-acc。此外,RMT 在物體檢測、實例分割和語義分割等下游任務中明顯優於現有的視覺骨幹。我們的工作仍在進行中。
生成式大型語言模型(LLM)在各種自然語言處理任務中取得了顯著進展。然而,在翻譯任務中,特別是對於具有中等模型大小(即7B或13B參數)的模型,這些進展並未得到體現,這些模型仍然落後於傳統監督式編碼器-解碼器翻譯模型。先前的研究試圖提高這些中等LLM的翻譯能力,但其收益有限。在本研究中,我們提出了一種新穎的LLM微調方法,專門為翻譯任務設計,消除了傳統翻譯模型通常依賴的豐富平行數據的需求。我們的方法包括兩個微調階段:首先在單語數據上進行初始微調,然後在一小組高質量平行數據上進行後續微調。我們將通過此策略開發的LLM稱為基於先進語言模型的翻譯器(ALMA)。基於我們的基礎模型LLaMA-2,我們的結果顯示,該模型在WMT'21(2個方向)和WMT'22(8個方向)測試數據集的10個翻譯方向上,相對於其零-shot表現,平均BLEU和COMET均可提高超過12。其性能顯著優於所有先前的工作,甚至優於NLLB-54B模型和GPT-3.5-text-davinci-003,而僅具有7B或13B參數。這種方法為機器翻譯中的一種新型訓練範式奠定了基礎。
由於大型語言模型(LLMs)在各種應用中被廣泛使用,研究人們如何在現實世界中與其互動變得越來越重要。本文介紹了 LMSYS-Chat-1M,這是一個包含一百萬個與 25 個最先進的LLMs進行的現實對話的大規模數據集。該數據集是通過我們的Vicuna演示和Chatbot Arena網站上的 210K 個獨特IP地址在野外收集的。我們概述了數據集的內容,包括其策劃過程、基本統計數據和主題分佈,突出了其多樣性、獨創性和規模。我們通過四個用例展示了其多功能性:開發與GPT-4表現相似的內容審查模型、構建安全基準、訓練與Vicuna表現相似的指令遵循模型,以及創建具有挑戰性的基準問題。我們相信這個數據集將成為理解和推進LLM能力的寶貴資源。該數據集可在以下網址公開獲取:https://huggingface.co/datasets/lmsys/lmsys-chat-1m。
大型語言模型(LLMs)已推動自然語言理解的極限,展現出優秀的問題解決能力。儘管取得了巨大成功,大多數現有的開源LLMs(例如LLaMA-2)在解決數學問題方面仍然遠遠不夠滿意,這是由於複雜的推理過程。為了彌補這一差距,我們提出了MetaMath,這是一種專門用於數學推理的微調語言模型。具體而言,我們通過從多個角度重寫問題來啟動數學問題,而無需額外知識,從而產生了一個名為MetaMathQA的新數據集。然後我們在MetaMathQA上對LLaMA-2模型進行微調。在兩個流行的數學推理基準測試(即GSM8K和MATH)上的實驗結果表明,MetaMath在性能上明顯優於一系列開源LLMs。我們的MetaMath-7B模型在GSM8K上達到了66.4%,在MATH上達到了19.4%,超過了相同大小的最先進模型11.5%和8.7%。特別是,MetaMath-70B在GSM8K上實現了82.3%的準確率,略高於GPT-3.5-Turbo。我們釋放了MetaMathQA數據集,不同模型大小的MetaMath模型以及用於公眾使用的訓練代碼。
3D視覺定位是家用機器人的重要技能,使它們能夠在環境中導航、操作物體並根據環境回答問題。儘管現有方法通常依賴大量標記數據或在處理複雜語言查詢方面存在限制,我們提出了LLM-Grounder,這是一種新型的零樣本、開放詞彙庫、基於大型語言模型(LLM)的3D視覺定位管道。LLM-Grounder利用LLM將複雜的自然語言查詢分解為語義成分,並使用視覺定位工具,如OpenScene或LERF,來識別3D場景中的物體。然後,LLM評估所提議物體之間的空間和常識關係,以做出最終的定位決策。我們的方法不需要任何標記的訓練數據,可以推廣應用於新奇的3D場景和任意文本查詢。我們在ScanRefer基準測試上評估了LLM-Grounder,展示了最先進的零樣本定位準確性。我們的研究結果表明,LLM顯著提高了定位能力,特別是對於複雜語言查詢,使LLM-Grounder成為機器人三維視覺語言任務的有效方法。有關視頻和互動演示,請訪問項目網站https://chat-with-nerf.github.io/。
在這份工作中,我們介紹了 Boolformer,這是第一個 Transformer 結構,經過訓練可執行端對端的布林函數符號回歸。首先,我們展示它能夠在提供乾淨真值表時,預測複雜函數的簡潔公式,即使這些函數在訓練期間並未見過。然後,我們展示它在提供不完整和有噪音的觀測時,找到近似表達式的能力。我們在廣泛的現實世界二元分類數據集上評估 Boolformer,展示其作為可解釋替代傳統機器學習方法的潛力。最後,我們將其應用於建模基因調控網絡動態的常見任務。使用最新的基準測試,我們展示 Boolformer 與最先進的遺傳算法相比具有數量級的加速。我們的代碼和模型已公開提供。
我們介紹了Bittensor語言模型,名為"BTLM-3B-8K",這是一個新的最先進的30億參數開源語言模型。BTLM-3B-8K是在SlimPajama數據集的627B tokens上訓練的,使用了2,048和8,192上下文長度的混合。BTLM-3B-8K在下游任務中表現優於所有現有的30億參數模型,提高了2-5.5%。BTLM-3B-8K甚至與一些70億參數模型具有競爭力。此外,BTLM-3B-8K提供了出色的長上下文性能,在長達8,192上下文長度的任務中優於MPT-7B-8K和XGen-7B-8K。我們在經過清理和去重的SlimPajama數據集上訓練了模型;積極調整了μP超參數和時間表;使用了ALiBi位置嵌入;並採用了SwiGLU非線性。在Hugging Face上,最受歡迎的模型具有70億參數,這表明用戶更喜歡70億模型的質量-大小比。將70億參數模型壓縮為30億參數模型,並幾乎不影響性能,是一個重要的里程碑。BTLM-3B-8K僅需要3GB內存,精度為4位,並且比70億模型的推理計算少2.5倍,有助於在移動和邊緣設備上開放強大的語言模型。BTLM-3B-8K在Hugging Face上以Apache 2.0許可證提供:https://huggingface.co/cerebras/btlm-3b-8k-base。