每日精選AI研究論文及翻譯
儘管大型語言模型(LLMs)在文本生成方面展現出令人印象深刻的能力,但我們發現它們的能力尚未普遍運用於音樂,人類的創意語言。我們介紹了ChatMusician,一個集成內在音樂能力的開源LLM。它基於對文本相容的音樂表示法ABC記譜法對LLaMA2進行持續預訓練和微調,並將音樂視為第二語言。ChatMusician能夠理解並生成音樂,使用純文本分詞器,無需任何外部多模態神經結構或分詞器。有趣的是,賦予音樂能力並不損害語言能力,甚至實現了略高的MMLU分數。我們的模型能夠根據文本、和弦、旋律、主題、音樂形式等條件生成結構完整、長度適中的音樂作品,超越了GPT-4的基準。在我們精心策劃的大學水準音樂理解基準MusicTheoryBench上,ChatMusician在零-shot設置下明顯優於LLaMA2和GPT-3.5。我們的工作揭示了LLMs可以成為音樂的出色壓縮器,但仍有重要領域有待探索。我們在GitHub上釋出了我們的4B令牌音樂語言語料庫MusicPile、收集的MusicTheoryBench、代碼、模型和演示。
我們介紹了 Nemotron-4 15B,一個擁有 150 億參數的大型多語言語言模型,訓練過程中使用了 8000 億個文本標記。Nemotron-4 15B 在英語、多語言和編碼任務中表現出色:在 7 個下游評估領域中,它在其中 4 個領域中表現優於所有現有的同等大小的開放模型,並在其餘領域中達到與領先的開放模型相競爭的表現。具體來說,Nemotron-4 15B 展現出所有同等大小模型中最佳的多語言能力,甚至優於四倍以上的模型以及專門為多語言任務而設計的模型。
儘管從頭開始訓練大型語言模型(LLMs)確實可以產生具有獨特能力和優勢的模型,但這種方法會產生高昂的成本,並可能導致能力上的潛在冗餘。另一種替代策略是將現有的LLMs結合成一個更強大的LLM,從而減少昂貴的預訓練的必要性。然而,由於LLMs具有不同的架構,直接參數混合被證明是不可行的。最近,FuseLLM引入了知識融合的概念,通過輕量級持續訓練將多個結構差異的LLMs的集體知識轉移至目標LLM。在本報告中,我們擴展了FuseLLM框架的可擴展性和靈活性,以實現聊天LLMs的融合,形成FuseChat。FuseChat包括兩個主要階段。首先,我們對結構和規模不同的源LLMs進行知識融合,通過輕量級微調來獲得具有相同結構和大小的多個目標LLMs。然後,這些目標LLMs在參數空間內合併,我們提出了一種基於微調前後參數矩陣變化比率來確定合併權重的新方法。我們使用三個具有不同架構和規模的知名聊天LLMs,即NH2-Mixtral-8x7B、NH2-Solar-10.7B和OpenChat-3.5-7B,來驗證我們的方法。跨越各種聊天領域的實驗結果表明,在7B和34B規模上,FuseChat-7B在各種聊天LLMs中表現卓越,甚至超越了GPT-3.5(三月)並接近Mixtral-8x7B-Instruct。我們的代碼、模型權重和數據可在https://github.com/fanqiwan/FuseLLM 公開訪問。
我們介紹了在建立和部署 MegaScale 時的設計、實施和工程經驗,這是一個用於在超過 10,000 個 GPU 規模上訓練大型語言模型(LLMs)的生產系統。在這種規模上訓練LLMs帶來了訓練效率和穩定性方面前所未有的挑戰。我們採用了全棧方法,通過共同設計模型塊和優化器設計、計算和通信重疊、運算子優化、數據管道和網絡性能調優等算法和系統組件,來應對這些挑戰。在訓練過程中保持高效率(即穩定性)是生產中的一個重要考慮因素,考慮到LLM訓練作業的長時間。許多困難的穩定性問題只會在大規模下出現,深入的可觀察性是解決這些問題的關鍵。我們開發了一套診斷工具,以監控系統組件和深層堆棧中的事件,識別根本原因,並制定有效技術來實現容錯容忍和減輕滯後者。MegaScale 在使用 12,288 個 GPU 訓練 175B LLM 模型時實現了 55.2% 的模型 FLOPs 利用率(MFU),相較於 Megatron-LM,MFU 提高了 1.34 倍。我們分享了在識別和修復故障和滯後者方面的運營經驗。我們希望通過從系統角度闡明問題並分享我們的經驗,能夠激發未來LLM系統研究的靈感。
低秩適應(LoRA)被廣泛應用於文本到圖像模型中,以準確呈現生成圖像中的特定元素,如獨特角色或風格。然而,現有方法在有效組合多個LoRA時面臨挑戰,特別是當需要整合的LoRA數量增加時,這阻礙了複雜圖像的創作。本文通過解碼為中心的角度研究多LoRA組合。我們提出了兩種無需訓練的方法:LoRA切換,它在每個去噪步驟中在不同的LoRA之間交替,以及LoRA合成,它同時整合所有LoRA以引導更具連貫性的圖像合成。為了評估所提出的方法,我們建立了ComposLoRA,作為本研究的一部分的新綜合測試平臺。它包含480個組合集的各種LoRA類別。利用基於GPT-4V的評估框架,我們的研究結果表明,我們的方法在性能上明顯優於主流基準,特別是在增加組合中LoRA數量時更為明顯。
我們研究大型語言模型(LLMs)是否潛在地進行多跳推理,針對複雜提示,如“‘Superstition’的歌手的母親是誰”進行分析。我們尋找潛在推理路徑的證據,其中LLM(1)潛在識別“‘Superstition’的歌手”為Stevie Wonder,作為橋樑實體,並(2)利用其對Stevie Wonder母親的知識完成提示。我們分析這兩個跳躍,並將它們的共同出現視為潛在多跳推理的指標。對於第一跳,我們測試將提示間接提及橋樑實體而不是其他實體是否增加LLM對橋樑實體的內部回憶。對於第二跳,我們測試增加這種回憶是否使LLM更好地利用其對橋樑實體的了解。我們發現在某些關係類型的提示中存在潛在多跳推理的強烈證據,其中該推理路徑在超過80%的提示中使用。然而,利用是高度情境化的,在不同類型的提示中變化很大。此外,平均而言,第二跳和完整的多跳遍歷的證據相當中等,僅對第一跳有實質性影響。此外,我們發現隨著模型大小的增加,第一跳推理的趨勢明顯增加,但第二跳則沒有。我們的實驗結果表明,對於LLMs未來發展和應用存在潛在挑戰和機遇。
結構化數據來源,如表格、圖形和數據庫,是普遍的知識來源。儘管大型語言模型(LLMs)在純文本上表現出色,但它們在解釋和利用結構化數據方面的能力仍然有限。我們的研究揭示了LLMs處理結構化數據的能力存在明顯不足,例如,ChatGPT在平均落後於最先進模型(SoTA)35%。為了增強LLMs中的結構化知識基礎(SKG)能力,我們開發了一個包含110萬個示例的全面指導調整數據集。利用這個數據集,我們訓練了一系列模型,稱為StructLM,基於Code-LLaMA架構,參數範圍從7B到34B。我們的StructLM系列在18個評估數據集中的14個上超越了特定任務模型,並在7個SKG任務上建立了新的SoTA成就。此外,StructLM展示了對6個新的SKG任務的卓越泛化能力。與預期相反,我們觀察到增加模型大小僅帶來輕微的好處,StructLM-34B僅略微優於StructLM-7B。這表明結構化知識基礎仍然是一項具有挑戰性的任務,需要更多創新的設計來推向新的水平。
近年來,大型語言模型(LLMs)發展的主要趨勢是「越大越好」。然而,LLMs 不適合需要在設備上進行處理、節能、低記憶體佔用和響應效率的情況。這些要求對於隱私、安全和可持續部署至關重要。本文通過探索「少即是多」的範式,解決了為資源受限設備設計準確而高效的小型語言模型(SLMs)的挑戰。我們的主要貢獻是引入一個準確且完全透明的開源 0.5 十億(0.5B)參數的 SLM,名為 MobiLlama,以滿足資源受限計算的特定需求,強調在降低資源需求的同時提高性能。MobiLlama 是一種 SLM 設計,從一個較大的模型開始,並應用謹慎的參數共享方案,以降低預訓練和部署成本。我們的工作不僅致力於彌合開源 SLM 的差距,還確保完全透明,提供完整的訓練數據管道、訓練代碼、模型權重以及超過 300 個檢查點和評估代碼,可在以下網址找到:https://github.com/mbzuai-oryx/MobiLlama。
相對設置(例如成對選擇、列表排序)已被廣泛應用於圖像質量評估(IQA)的各種主觀研究中,因為它在不同觀察者之間固有地標準化評估標準,並提供更清晰明確的反應。在這項工作中,我們將新興的大型多模型(LMMs)的邊緣擴展到開放式設置,以進一步推進視覺質量比較,這種設置:1)可以回答有關質量比較的開放範圍問題;2)可以提供超出直接答案的詳細推理。為此,我們提出了 Co-Instruct。為了訓練這種首創的開源開放式視覺質量比較器,我們從兩個來源收集了 Co-Instruct-562K 數據集:(a)LMM-合併的單圖像質量描述,(b)GPT-4V對未標記數據的“教師”回應。此外,為了更好地評估這種設置,我們提出了 MICBench,這是針對 LMMs 的多圖像比較的第一個基準。我們展示了 Co-Instruct 不僅比最先進的開源 LMMs 實現了30%更高的優越準確性,而且在現有相關基準和提出的 MICBench 上也優於 GPT-4V(其教師)。我們的模型已發表在 https://huggingface.co/q-future/co-instruct。
隨著大型語言模型(LLMs)在許多現實應用中變得日益普及,了解並增強其對用戶輸入的韌性至關重要。現有的識別對抗提示的方法往往專注於特定領域,缺乏多樣性,或需要大量人工標註。為了解決這些限制,我們提出了Rainbow Teaming,一種用於生成多樣對抗提示集合的新方法。Rainbow Teaming將對抗提示生成視為一個質量-多樣性問題,並使用開放式搜索生成既有效又多樣的提示。它可以揭示模型在包括本文中的安全性、問答和網絡安全在內的廣泛領域中的弱點。我們還展示了通過Rainbow Teaming生成的合成數據進行微調,可以提高最先進的LLMs的安全性,而不損害其一般能力和幫助性,為開放式自我改進鋪平道路。