每日精選AI研究論文及翻譯
我們介紹了 Mixtral 8x7B,一種稀疏專家混合(SMoE)語言模型。Mixtral 與 Mistral 7B 具有相同的架構,不同之處在於每個層由 8 個前饋塊(即專家)組成。對於每個標記,在每個層中,路由器網路選擇兩個專家來處理當前狀態並結合它們的輸出。儘管每個標記只看到兩個專家,但所選專家在每個時間步可能不同。因此,每個標記可以訪問 47B 參數,但在推論期間僅使用 13B 活躍參數。Mixtral 在上下文大小為 32k 標記的情況下進行了訓練,並在所有評估基準中優於或與 Llama 2 70B 和 GPT-3.5 相匹敵。特別是,在數學、代碼生成和多語言基準上,Mixtral 遠遠優於 Llama 2 70B。我們還提供了一個經過微調以遵循指示的模型,Mixtral 8x7B - Instruct,在人類基準上超越了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - 聊天模型。基礎模型和指示模型均釋出為 Apache 2.0 許可證。
狀態空間模型(SSMs)已成為順序建模領域的嚴肅競爭對手,挑戰了Transformer的主導地位。與此同時,專家混合模型(MoE)顯著改進了基於Transformer的LLMs,包括最近的最先進開源模型。我們建議為了發揮SSMs在擴展方面的潛力,應該將它們與MoE結合。我們在最近的基於SSM的模型Mamba上展示了這一點,該模型實現了類似Transformer的卓越性能。我們的模型MoE-Mamba在性能上優於Mamba和Transformer-MoE。特別是,MoE-Mamba在訓練步驟減少2.2倍的情況下達到了與Mamba相同的性能,同時保留了Mamba相對於Transformer的推理性能增益。
在對話式人工智慧研究中,有一個明顯的趨勢是朝著開發具有更多參數的模型發展,這一趨勢以ChatGPT等模型為例。雖然這些龐大的模型往往能夠生成越來越好的對話回應,但它們需要大量的計算資源和記憶體。這項研究探討了一個相關問題:一組較小模型的組合是否可以協作達到與單一大型模型相當或更好的性能?我們提出了一種稱為「混合」的方法,這是一種簡單而有效的方法,用於整合多個對話式人工智慧。我們的實證證據表明,當特定的較小模型協同混合時,它們有可能超越或匹敵遠大於它們的對應大型模型的能力。例如,僅集成三個中等大小的模型(6B/13B參數)就可以與大型模型ChatGPT(175B+參數)的性能指標相匹敵甚至超越。這一假設是通過在Chai研究平台上對擁有龐大用戶基礎的A/B測試方法在三十天內進行嚴格測試的。研究結果強調了「混合」策略作為一種可行方法,可提升對話式人工智慧的效能,而無需相應地增加計算需求。
對於大型語言模型來說,利用長文本構成一個巨大挑戰,因為它們的上下文窗口長度有限。儘管透過微調可以擴展上下文窗口,但這將在訓練和推論時間上產生相當大的成本,並對語言模型的原始能力產生不利影響。在這項研究中,我們提出了「啟動信標」(Activation Beacon)的概念,將語言模型的原始啟動轉換為更緊湊的形式,使其能夠在有限的上下文窗口中感知更長的上下文。啟動信標被引入作為語言模型的即插即用模組。它在完全保留語言模型對短上下文的原始能力的同時,擴展了處理長上下文的新能力。此外,它使用短滑動窗口來處理長上下文,從而在訓練和推論中實現了競爭力的記憶和時間效率。啟動信標是通過自回歸任務學習的,條件是一組具有多樣化緊縮比率的信標。由於這種處理方式,它可以僅通過短序列數據在短短的10K步驟內高效訓練,僅在單個8xA800 GPU機器上消耗不到9小時。實驗研究表明,啟動信標能夠將Llama-2-7B的上下文長度增加100倍(從4K增加到400K),同時在長上下文生成和理解任務上取得了優異的結果。我們的模型和代碼將在BGE存儲庫中提供。
儘管最近在文本轉3D生成方法方面取得了進展,但值得注意的是缺乏可靠的評估指標。現有的指標通常專注於單一標準,例如資產與輸入文本的對齊程度。這些指標缺乏泛化到不同評估標準的靈活性,並且可能與人類偏好不太一致。進行使用者偏好研究是一種提供適應性和與人類一致結果的替代方法。然而,使用者研究在擴展方面可能非常昂貴。本文提出了一種自動、多功能且與人類一致的文本轉3D生成模型評估指標。為此,我們首先使用GPT-4V開發提示生成器,生成評估提示,作為比較文本轉3D模型的輸入。我們進一步設計了一種方法,指示GPT-4V根據使用者定義的標準比較兩個3D資產。最後,我們使用這些兩兩比較的結果來為這些模型分配Elo評分。實驗結果表明,我們的指標在不同評估標準下與人類偏好強烈一致。
本文介紹了 DiarizationLM,一個利用大型語言模型(LLM)來後處理語者分割系統輸出的框架。提出的框架可以實現多種目標,如改善分段轉錄的可讀性,或降低詞語分割錯誤率(WDER)。在這個框架中,自動語音識別(ASR)和語者分割系統的輸出被表示為一個緊湊的文本格式,並包含在可選地微調的LLM的提示中。LLM的輸出可以作為經過改進的分割結果來使用。作為後處理步驟,這個框架可以輕鬆應用於任何現成的ASR和語者分割系統,而無需重新訓練現有組件。我們的實驗表明,一個經過微調的PaLM 2-S模型可以在Fisher電話對話數據集上將WDER降低了25.9%,在Callhome英語數據集上降低了31%。
大型語言模型(LLMs)在與程式碼相關的任務中取得了顯著進展,然而許多LLMs將程式碼視為簡單的序列,忽略了其結構化的特性。我們引入了AST-T5,一種新穎的預訓練範式,利用抽象語法樹(AST)來增強程式碼生成、轉譯和理解能力。通過動態規劃,我們的AST感知分割保留了程式碼結構,而我們的AST感知跨度損壞目標使模型能夠重建各種程式碼結構。與其他模型不同,AST-T5避免了複雜的程式分析或架構更改,因此可以與任何編碼器-解碼器Transformer無縫集成。評估顯示,AST-T5在各種與程式碼相關的任務中始終優於大小相似的LLMs。結構感知使AST-T5在程式碼對程式碼任務中特別強大,在Bugs2Fix任務的精確匹配分數方面超越CodeT5 2分,在CodeXGLUE的Java-C#轉譯任務的精確匹配分數方面超越3分。我們的程式碼和模型可在以下網址公開獲得:https://github.com/gonglinyuan/ast_t5。
我們提出了CRUXEval(代碼推理、理解和執行評估),這是一個基準測試,包含800個Python函數(3-13行)。每個函數都附帶一個輸入-輸出對,從而產生兩個自然任務:輸入預測和輸出預測。首先,我們提出了一個通用的方法來生成我們的執行基準測試,可用於創建基準測試的未來變化。其次,我們在我們的基準測試上評估了二十個代碼模型,發現許多最近在HumanEval上得分較高的模型在我們的基準測試上並沒有顯示同樣的改進。第三,我們展示了簡單的CoT和微調方案可以提高我們基準測試的性能,但仍遠未解決問題。最佳設置是搭配CoT的GPT-4,分別在輸入和輸出預測上實現了75%和81%的pass@1。相比之下,Code Llama 34B在輸入和輸出預測上的pass@1分別為50%和46%,凸顯了開源和封閉源模型之間的差距。由於沒有模型能夠完全通過CRUXEval,我們提供了GPT-4在簡單程序上連續失敗的例子,作為研究其代碼推理能力和改進領域的一個視角。
預訓練模型的出現對自然語言處理(NLP)和計算機視覺以及關聯數據集產生了顯著影響。傳統上,這些模型通常通過微調後續任務來評估。然而,這引發了如何更有效地評估這些模型的問題。在本研究中,我們探索了一種新方法,利用與每個實體相關的元特徵作為世界知識的來源,並利用模型中的實體表示。我們提出使用這些表示和元特徵之間的一致性作為評估預訓練模型的度量標準。我們的方法在各個領域展示了有效性,包括具有關聯數據集、大型語言模型和圖像模型的模型。
隨著對自動3D內容創建流程需求的增加,已經研究了各種3D表示形式,以從單張圖像生成3D物體。由於其優越的渲染效率,基於3D高斯擴散的模型最近在3D重建和生成方面表現出色。基於3D高斯擴散的方法用於從圖像生成3D的過程通常是基於優化的,需要進行許多計算昂貴的分數提煉步驟。為了克服這些挑戰,我們引入了一種攤銷生成式3D高斯框架(AGG),可以即時從單張圖像生成3D高斯,無需進行每個實例的優化。通過使用中間混合表示,AGG將3D高斯位置的生成和其他外觀屬性的聯合優化進行了分解。此外,我們提出了一個分級流程,首先生成3D數據的粗略表示,然後再通過3D高斯超分辨率模塊對其進行上採樣。我們的方法與現有基於優化的3D高斯框架和使用其他3D表示的基於採樣的流程進行了評估,其中AGG在質量和量化方面展示出競爭力的生成能力,同時速度快了幾個數量級。項目頁面:https://ir1d.github.io/AGG/
在這份技術報告中,我們介紹了TeleChat,這是一組具有30億、70億和120億參數的大型語言模型(LLMs)。它包括預訓練語言模型以及與人類偏好相符的微調聊天模型。TeleChat最初在包含來自英語和中文語言的各種文本的龐大語料庫上進行預訓練,其中包含數以兆計的標記。隨後,模型經過微調以符合人類偏好,遵循我們描述的詳細方法論。我們評估了TeleChat在各種任務上的表現,包括語言理解、數學、推理、代碼生成和基於知識的問答。我們的研究結果表明,TeleChat在廣泛的公共基準測試中實現了與其他開源模型相似尺寸的可比性能。為了支持利用LLMs進行未來研究和應用,我們向公眾社區釋出了TeleChat的7B和12B變體的微調模型檢查點,以及代碼和部分預訓練數據。