每日精選AI研究論文及翻譯
大型語言模型已成為自然語言處理的基石,但在計算和記憶體資源方面使用這些模型會帶來相當大的成本。稀疏化提供了一種解決方案來緩解這些資源限制,最近的研究表明,訓練過的模型可以在事後進行稀疏化。現有的稀疏化技術面臨挑戰,因為它們需要額外的資料結構,並且在當前硬體上提供了受限的加速。在本文中,我們提出了SliceGPT,一種新的事後訓練稀疏化方案,它將每個權重矩陣替換為一個更小的(密集的)矩陣,從而降低了網絡的嵌入維度。通過大量實驗,我們展示了SliceGPT可以刪除LLAMA2-70B、OPT 66B和Phi-2模型中高達25%的模型參數(包括嵌入),同時分別保持了密集模型的99%、99%和90%的零-shot任務性能。我們的切片模型在更少的GPU上運行並且運行速度更快,無需進行任何額外的代碼優化:在24GB消費者GPU上,我們將LLAMA2-70B的推理計算總量減少到密集模型的64%;在40GB的A100 GPU上,我們將其減少到66%。我們提供了一個新的見解,即變壓器網絡中的計算不變性,這使得SliceGPT成為可能,我們希望它將激發並促使未來減少預訓練模型的記憶體和計算需求的新途徑。代碼可在以下鏈接找到:https://github.com/microsoft/TransformerCompression
元學習已成為一種強大的方法,用於訓練神經網絡從有限數據中快速學習新任務。對不同任務的廣泛暴露導致多功能表示,從而實現通用問題解決。但是,元學習的極限在哪裡?在這項工作中,我們探索了將最強大的通用預測器——Solomonoff歸納(SI)——通過利用元學習的極限嵌入神經網絡的潛力。我們使用通用圖靈機(UTM)生成用於讓網絡暴露於各種模式的訓練數據。我們對UTM數據生成過程和元訓練協議進行了理論分析。我們使用各種複雜性和通用性的算法數據生成器,對神經結構(例如LSTM、Transformer)進行了全面實驗。我們的結果表明,UTM數據是元學習的寶貴資源,可用於訓練能夠學習通用預測策略的神經網絡。
自回歸解碼使得大型語言模型(LLMs)的推論變得耗時。我們提出了一個簡單的框架,名為EAGLE(Extrapolation Algorithm for Greater Language-model Efficiency),用於無損加速。與傳統的推測抽樣方法不同,EAGLE在更規則的(第二頂層)特徵層級自回歸地運作起草過程,並通過整合提前一個時間步的標記來解決下一個特徵預測問題中的抽樣不確定性問題。EAGLE提供的加速是無損的:它不涉及對目標LLM的微調,生成的文本保持與純自回歸解碼相同的分佈。截至本文提交時,EAGLE是推測抽樣家族中已知最快的框架。在MT-bench上,EAGLE比純解碼快3倍,比Lookahead快2倍,比Medusa快1.6倍。使用gpt-fast,EAGLE在單個RTX 3090 GPU上的LLaMA2-Chat 13B平均達到每秒160個標記,而Huggingface的實現為每秒24個標記。
最近在文本到圖像模型方面的進展顯著增強了圖像生成能力,然而在支援雙語或中文的開源模型方面仍存在明顯差距。為了滿足這一需求,我們提出了Taiyi-Diffusion-XL,一個新的中英雙語文本到圖像模型,通過擴展CLIP和Stable-Diffusion-XL的能力,通過雙語持續預訓練的過程進行開發。該方法包括通過將最常用的中文字符整合到CLIP的分詞器和嵌入層中,並結合絕對位置編碼擴展,有效擴展詞彙量。此外,我們通過大型視覺語言模型豐富文本提示,從而獲得更好的圖像標題並具有更高的視覺質量。這些增強功能隨後應用於下游文本到圖像模型。我們的實證結果表明,所開發的CLIP模型在雙語圖像文本檢索方面表現出色。此外,Taiyi-Diffusion-XL的雙語圖像生成能力超越了先前的模型。這項研究促成了Taiyi-Diffusion-XL模型的開發和開源,代表了圖像生成領域的一個顯著進步,特別是針對中文應用。這一貢獻是解決多模態研究中對更多語言支持需求的一個進步。該模型和演示可在以下網址公開獲取:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{此處為URL},從而促進該領域的進一步研究和合作。
由於其便利性和用戶友好性,基於文本驅動的3D場景編輯引起了廣泛關注。然而,由於文本描述的固有限制,現有方法仍然缺乏對指定外觀和位置進行準確控制的能力。為此,我們提出了一個3D場景編輯框架TIPEditor,該框架接受文本和圖像提示以及3D邊界框來指定編輯區域。通過圖像提示,用戶可以方便地指定目標內容的詳細外觀/風格,以補充文本描述,從而實現對外觀的準確控制。具體來說,TIP-Editor採用逐步的2D個性化策略,以更好地學習現有場景和參考圖像的表示,其中提出了一種定位損失,以鼓勵按照邊界框指定的方式正確放置物體。此外,TIPEditor利用明確靈活的3D高斯擴散作為3D表示,以促進局部編輯,同時保持背景不變。大量實驗表明,TIP-Editor能夠在指定邊界框區域內根據文本和圖像提示進行準確編輯,始終優於基準線在編輯質量和對提示的對齊方面,在質量和量化方面都有優異表現。
人們利用表達行為有效地與他人溝通和協調行動,例如點頭以示承認他人的注視,或說“對不起”以在繁忙的走廊中通過他人。我們希望機器人在人機互動中也能展示表達行為。先前的研究提出基於規則的方法,但很難擴展到新的溝通模式或社交情境,而數據驅動方法則需要針對機器人使用的每個社交情境定製的專門數據集。我們提出利用大型語言模型(LLMs)提供的豐富社交背景以及它們根據指示或用戶喜好生成動作的能力,來生成具有適應性和可組合性的表達性機器人動作,逐步積累。我們的方法利用少樣本連貫思維提示,將人類語言指令轉換為參數化控制代碼,利用機器人已有和學習到的技能。通過用戶研究和模擬實驗,我們證明我們的方法產生的行為被用戶認為是能幹且易於理解的。補充資料可在https://generative-expressive-motion.github.io/找到。