每日精選AI研究論文及翻譯
我們描述了Meltemi 7B的開發和功能,這是第一個針對希臘語言的開放式大型語言模型。Meltemi 7B擁有70億個參數,並在一個包含400億標記的希臘語語料庫上進行訓練。為了開發Meltemi 7B,我們通過在希臘語語料庫上持續預訓練來適應Mistral。Meltemi 7B包含截至2023年9月的最新信息。此外,我們還翻譯並整理了一個希臘語指令語料庫,用於調整聊天模型Meltemi 7B Instruct。對於Meltemi 7B Instruct,我們特別注意了對齊和去除有害內容。開發的模型在一系列收集的評估語料庫上進行評估,並呈現提示和回應的示例。Meltemi 7B和Meltemi 7B Instruct均可在https://huggingface.co/ilsp以Apache 2.0許可證下獲得。
大型語言模型(LLMs)已經在自然語言處理領域引起了革命,通過利用增加的模型大小和序列長度,在各種應用中取得了前所未有的性能。然而,伴隨而來的計算和記憶成本的上升對於管理長序列提出了重大挑戰,特別是由於變壓器注意機制的二次複雜度。本文專注於長上下文情況,解決了推論過程中KV緩存內存消耗的效率問題。與現有方法優化基於序列長度的記憶不同,我們發現KV緩存的通道維度存在顯著的冗餘,表現為注意權重中不平衡的幅度分佈和低秩結構。基於這些觀察,我們提出了ThinK,一種新穎的基於查詢的KV緩存剪枝方法,旨在在有選擇性地剪枝最不重要的通道的同時最小化注意權重損失。我們的方法不僅保持或提高了模型的準確性,而且與普通的KV緩存淘汰方法相比,記憶成本降低了超過20%。在LLaMA3和Mistral模型上進行了廣泛評估,涵蓋了各種長序列數據集,證實了ThinK的有效性,為在不影響性能的情況下實現高效LLM部署設立了新的標竿。我們還概述了將我們的方法擴展到值緩存剪枝的潛力,展示了ThinK在減少記憶和計算開銷方面的多功能性和廣泛應用性。
化學語言模型的大規模預訓練方法代表了化學信息學的一項突破。這些方法在屬性預測和分子生成等任務中表現出色,通過在大型未標記語料庫上進行自監督學習,學習輸入標記的情境化表示。通常,這涉及在未標記數據上進行預訓練,然後在特定任務上進行微調,減少對標註數據的依賴,擴展化學語言表示的理解。本文介紹了一種大型編碼器-解碼器化學基礎模型,該模型在由 PubChem 提供的經過精心策劃的 9100 萬個 SMILES 樣本數據集上進行了預訓練,相當於 40 億個分子標記。所提出的基礎模型支持不同的複雜任務,包括量子屬性預測,並提供兩個主要變體(2.89 億和 8 倍 2.89 億)。我們在多個基準數據集上的實驗驗證了所提出模型在不同任務中提供最先進結果的能力。我們還對嵌入空間的組成性進行了初步評估,作為推理任務的先決條件。我們展示了所產生的潛在空間與最先進的具有少樣本學習能力相比是可分離的。
隨著大型語言模型(LLMs)日益融入運營工作流程(LLM-Ops),迫切需要有效的護欄來確保安全和對齊的互動,包括檢測跨語言的潛在不安全或不當內容的能力。然而,現有的適用於工作場所的分類器主要集中在英文文本上。為了填補馬來西亞語言領域的這一空白,我們提出了一種專門針對馬來西亞語言內容的新型適用於工作場所的文本分類器。通過精心策劃和標註一個首創的跨多個內容類別的馬來西亞文本數據集,我們訓練了一個能夠使用最先進的自然語言處理技術識別潛在不安全材料的分類模型。這項工作代表了實現更安全互動和內容篩選、減輕潛在風險並確保LLMs負責部署的重要一步。為了最大程度地提高可訪問性並促進進一步研究以增強LLM-Ops在馬來西亞語境中的對齊性,該模型已公開發布在https://huggingface.co/malaysia-ai/malaysian-sfw-classifier。
我們介紹了擴散增強代理(Diffusion Augmented Agents,DAAG),這是一個新穎的框架,利用大型語言模型、視覺語言模型和擴散模型,以提高具身體代理的強化學習中的樣本效率和遷移學習。DAAG透過擴散模型將代理的過去經驗進行事後重新標記,以一種我們稱為事後經驗增強的技術,以時間和幾何一致的方式轉換視頻,以與目標指令對齊。一個大型語言模型協調這個自主過程,無需人類監督,非常適合終身學習場景。該框架減少了需要標記獎勵數據的量,以便1)微調作為獎勵檢測器的視覺語言模型,和2)對新任務訓練強化學習代理。我們展示了DAAG在涉及機器人操作和導航的模擬環境中的樣本效率增益。我們的結果顯示,DAAG改善了獎勵檢測器的學習、遷移過去經驗,以及獲取新任務的能力 - 這是發展高效終身學習代理的關鍵能力。我們的網站提供了補充資料和視覺化:https://sites.google.com/view/diffusion-augmented-agents/
我們介紹了Knesset-DictaBERT,這是一個在以色列議會議事錄上進行微調的大型希伯來語言模型。該模型基於DictaBERT架構,根據MLM任務在理解議會語言方面展現出顯著的改進。我們對模型性能進行了詳細評估,顯示在困惑度和準確性方面相較於基準DictaBERT模型有所提升。
本文介紹了一種創新的影像抠像方法,將傳統的基於回歸的任務重新定義為生成建模挑戰。我們的方法利用擁有豐富預訓練知識的潛在擴散模型的能力來規範抠像過程。我們提出了新穎的架構創新,使我們的模型能夠生成具有優越分辨率和細節的抠像。所提出的方法是多功能的,可以執行無引導和基於引導的影像抠像,並適應各種額外線索。我們在三個基準數據集上進行了全面評估,展示了我們方法在量化和質化上的優越性能。結果不僅反映了我們方法的強大有效性,還突顯了它生成視覺上引人入勝且接近照片般真實品質的抠像的能力。本文的項目頁面可在以下網址找到:https://lightchaserx.github.io/matting-by-generation/
現有的音樂標註方法僅能生成簡潔的全局描述短音樂片段,無法捕捉細緻的音樂特徵和時序感知的音樂變化。為解決這些限制,我們提出了 FUTGA 模型,通過從時間組成的生成增強中學習細緻的音樂理解能力。我們利用現有的音樂標註數據集和大型語言模型(LLMs)合成具有結構描述和時間界限的完整歌曲的細緻音樂標註。在所提出的合成數據集的增強下,FUTGA 能夠識別音樂在關鍵轉折點的時間變化及其音樂功能,並為每個音樂片段生成詳細描述。我們進一步介紹了由 FUTGA 生成的完整音樂標註數據集,作為 MusicCaps 和 Song Describer 數據集的擴充。我們在幾個下游任務上評估了自動生成的標註,包括音樂生成和檢索。實驗證明了所生成標註的質量,以及所提出的音樂標註方法在各種下游任務中取得的更好性能。我們的程式碼和數據集可在以下網址找到:https://huggingface.co/JoshuaW1997/FUTGA。
神經資訊檢索在高資源語言中取得了快速進展,但在日語等低資源語言中,由於資料稀缺等挑戰,進展受到阻礙。因此,儘管多語言模型存在計算效率低和無法捕捉語言細微差異等問題,仍主導了日語檢索領域。近期出現的像JaColBERT這樣的多向量單語模型已經縮小了這一差距,但在大規模評估中仍遠遠落後於多語言方法。本研究針對低資源環境下多向量檢索器的次優訓練方法進行了系統評估,重點放在日語上。我們系統性地評估和改進了JaColBERT的推理和訓練設置的關鍵方面,更廣泛地說,是多向量模型。通過一個新穎的檢查點合併步驟進一步提升性能,展示了將微調的好處與原始檢查點的泛化能力結合的有效方法。基於我們的分析,我們提出了一個新穎的訓練配方,產生了JaColBERTv2.5模型。JaColBERTv2.5只有1.1億個參數,在4個A100 GPU上不到15小時的訓練時間內,明顯優於所有現有方法,在所有常見基準測試中取得了平均得分0.754,遠高於之前的最佳0.720。為了支持未來的研究,我們公開提供了我們的最終模型、中間檢查點和所有使用的數據。
HAL(Hyper Articles en Ligne)是法國的國家出版庫,被大多數高等教育和研究機構用於其開放科學政策。作為一個數字圖書館,它是一個豐富的學術文件存儲庫,但其用於高級研究的潛力尚未得到充分利用。我們提出了HALvest,這是一個獨特的數據集,橋接了引文網絡和在HAL上提交的論文的全文之間的差距。我們通過篩選HAL中的學術出版物來構建我們的數據集,結果約有70萬份文件,跨越13個確定的領域,涵蓋34種語言,適合語言模型訓練,產生約165億個標記(其中80億個為法語,70億個為英語,是最常見的語言)。我們將每篇論文的元數據轉換為引文網絡,生成一個有向異構圖。該圖包括在HAL上獨特識別的作者,以及所有開放提交的論文及其引文。我們使用數據集為作者歸屬提供了一個基準,應用一系列最先進的圖表示學習模型進行鏈接預測,並討論我們生成的知識圖結構的實用性。