每日精選AI研究論文及翻譯
開源大型語言模型(LLMs)的快速發展令人印象深刻。然而,先前文獻中描述的擴展法則呈現出不同的結論,這為擴展LLMs投下陰影。我們深入研究擴展法則,提出我們獨特的研究結果,促進了在兩種常用的開源配置(7B和67B)中擴展大型模型。在擴展法則的指導下,我們推出了DeepSeek LLM,這是一個致力於以長期視角推進開源語言模型的項目。為了支持預訓練階段,我們開發了一個數據集,目前包含2兆個標記,並持續擴充。我們進一步對DeepSeek LLM基本模型進行監督微調(SFT)和直接偏好優化(DPO),從而創建了DeepSeek Chat模型。我們的評估結果表明,DeepSeek LLM 67B在各種基準測試中超越了LLaMA-2 70B,特別是在代碼、數學和推理領域。此外,開放式評估顯示,DeepSeek LLM 67B Chat在性能上優於GPT-3.5。
在視覺豐富文件理解(VrDU)方面的進展已經實現了對具有複雜版面的文件進行信息提取和問答。出現了兩種架構的模式--受LLM啟發的基於Transformer的模型和圖神經網絡。在本文中,我們介紹了DocGraphLM,一個結合了預訓練語言模型和圖語義的新框架。為了實現這一目標,我們提出了1)一種聯合編碼器架構來表示文件,以及2)一種新的鏈接預測方法來重構文件圖。DocGraphLM使用一種收斂的聯合損失函數來預測節點之間的方向和距離,該函數優先考慮鄰域恢復並降低遠程節點檢測的權重。我們在三個最先進的數據集上進行的實驗表明,採用圖特徵在信息提取和問答任務上實現了一致的改進。此外,我們報告說,儘管僅通過鏈接預測構建,但採用圖特徵加速了訓練過程中的收斂。
我們深入探討了視覺Transformer(ViTs)固有的一個微妙但重要的挑戰:這些模型的特徵圖呈現網格狀的人工痕跡,這對ViTs在下游任務中的表現造成了不利影響。我們的研究將這個根本問題追溯到輸入階段的位置嵌入。為了應對這一問題,我們提出了一個新穎的噪聲模型,適用於所有ViTs。具體來說,該噪聲模型將ViT的輸出分解為三個部分:一個不受噪聲痕跡影響的語義項,以及兩個與像素位置相關的痕跡相關項。通過在每個圖像基礎上使用神經場來實現跨視圖特徵一致性,實現了這種分解。這種圖像基礎的優化過程從原始的ViT輸出中提取出無痕跡的特徵,為離線應用提供乾淨的特徵。為了擴展我們的解決方案以支持在線功能,我們引入了一個可學習的去噪器,直接從未處理的ViT輸出中預測無痕跡的特徵,並展現了對新數據的顯著泛化能力,無需進行圖像基礎的優化。我們的兩階段方法被稱為去噪視覺Transformer(DVT),不需要重新訓練現有的預訓練ViTs,並且可以立即應用於任何基於Transformer的架構。我們在各種代表性的ViTs(DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)上評估了我們的方法。廣泛的評估表明,我們的DVT在多個數據集上的語義和幾何任務中持續且顯著地提升了現有的最先進通用模型(例如,+3.84 mIoU)。我們希望我們的研究將鼓勵重新評估ViT的設計,特別是關於位置嵌入的天真使用。
穩定擴散 XL(SDXL)已成為最佳的開源文本到圖像模型(T2I),因其多功能性和一流的圖像質量而著稱。有效應對 SDXL 模型的計算需求對於擴大覆蓋範圍和應用範圍至關重要。在這項工作中,我們介紹了兩個經過縮減的變體,Segmind 穩定擴散(SSD-1B)和 Segmind-Vega,分別具有 13 億和 7.4 億參數的 UNets,通過逐步刪除使用以減少模型大小為重點的層級損失,實現了這些模型。我們在 https://hf.co/Segmind 上釋出這些模型權重。我們的方法涉及從 SDXL 的 U-Net 結構中消除殘差網絡和變壓器塊,從而顯著減少參數和延遲。我們的緊湊模型通過利用轉移知識有效地模擬原始的 SDXL,並在對抗更大的數十億參數 SDXL 的競爭結果中取得了競爭性成果。我們的工作強調了知識蒸餾與層級損失相結合,在減少模型大小的同時保留了 SDXL 的高質量生成能力,從而促進了在資源受限環境中更易部署的可能性。
CLIP和Segment Anything Model(SAM)是卓越的視覺基礎模型(VFMs)。SAM在各個領域的分割任務中表現卓越,而CLIP則以其零-shot識別能力而聞名。本文深入探討將這兩個模型整合到統一框架中的方法。具體而言,我們介紹了Open-Vocabulary SAM,這是一個受SAM啟發的模型,旨在實現同時交互式分割和識別,利用兩個獨特的知識轉移模塊:SAM2CLIP和CLIP2SAM。前者通過蒸餾和可學習的Transformer適配器將SAM的知識轉移到CLIP中,而後者將CLIP的知識轉移到SAM,增強其識別能力。在各種數據集和檢測器上進行了大量實驗,結果顯示Open-Vocabulary SAM在分割和識別任務中的有效性,明顯優於僅將SAM和CLIP簡單組合的基線方法。此外,在圖像分類數據訓練的幫助下,我們的方法可以分割和識別大約22,000個類別。
近年來,語音生成取得了顯著進展,現在實現了一次性生成的能力,往往幾乎無法與真實人類聲音區分開來。將這些語音生成方面的進步與大型語言模型相結合,可能會對各種應用產生革命性影響。然而,某些應用,如輔助對話系統,需要自然而具對話性的語音生成工具,同時在實時操作中也能高效運行。目前的頂尖模型,如VALL-E和SoundStorm,由分層神經音頻編解碼器提供動力,需要大型神經組件和豐富的訓練數據才能良好運作。相比之下,MQTTS旨在構建更緊湊的對話式TTS模型,同時利用小規模真實對話語音數據。然而,其自回歸性質導致高推理延遲,因此限制了其實時使用。為了減輕當前頂尖TTS模型的限制,同時利用其優勢,在這項工作中我們介紹了Pheme模型系列,該系列1) 提供緊湊但高性能的模型,2) 允許3) 自然對話式語音的並行生成,並且4) 可以在小規模對話數據上高效訓練,將數據需求降低超過10倍,但仍與自回歸TTS模型的質量相匹配。我們還表明,通過簡單的師生蒸餾,我們可以在預訓練的Pheme檢查點上為單一說話者設置顯著提高語音質量,僅依賴更大的師生模型生成的合成語音。音頻樣本和預訓練模型可在線獲得。