每日精選AI研究論文及翻譯
大型語言模型(LLMs)已經改變了人工智能的格局,然而它們巨大的尺寸在計算成本方面帶來了重大挑戰。我們介紹了 LoRAShear,一種新穎高效的方法,用於在結構上修剪LLMs並恢復知識。給定一般的LLMs,LoRAShear首先創建依賴圖以發現最小刪除結構並分析知識分佈。然後在LoRA轉接器上進行漸進式結構修剪,並實現內在知識轉移,以更好地保留冗餘結構中的信息。為了在修剪過程中恢復丟失的知識,LoRAShear細致研究並提出了動態微調方案,並使用動態數據轉接器,以有效地縮小與完整模型之間的性能差距。數值結果表明,僅使用一個GPU,在幾天的GPU時間內,LoRAShear有效地將LLMs的佔用空間減少了20%,僅有1.0%的性能降級,並且明顯優於當前技術水平。源代碼將在 https://github.com/microsoft/lorashear 上提供。
我們提出了MM-VID,這是一個整合系統,結合了GPT-4V的能力,並搭配視覺、音訊和語音等專業工具,以促進高級視頻理解。MM-VID旨在應對長篇視頻和複雜任務所帶來的挑戰,例如在長達一小時的內容中進行推理和理解跨越多集的故事情節。MM-VID使用視頻轉腳本生成與GPT-4V,將多模態元素轉錄為一份長文本腳本。生成的腳本詳細描述了角色的移動、動作、表情和對話,為大型語言模型(LLMs)實現視頻理解鋪平了道路。這使得實現了高級功能,包括音訊描述、角色識別和多模態高層次理解。實驗結果展示了MM-VID在處理不同視頻類型和不同長度視頻時的有效性。此外,我們展示了當應用於互動環境時,例如視頻遊戲和圖形用戶界面,其潛力。
視頻生成在學術界和工業界越來越受到關注。儘管商業工具可以生成合理的視頻,但對於研究人員和工程師來說,可用的開源模型數量有限。在這項工作中,我們介紹了兩種用於高質量視頻生成的擴散模型,即文本到視頻(T2V)和圖像到視頻(I2V)模型。T2V 模型根據給定的文本輸入合成視頻,而 I2V 模型則包含額外的圖像輸入。我們提出的 T2V 模型可以生成分辨率為 1024x576 的逼真且具有電影質量的視頻,在質量方面優於其他開源的 T2V 模型。I2V 模型旨在生成嚴格遵循所提供參考圖像內容的視頻,保留其內容、結構和風格。該模型是第一個開源的 I2V 基礎模型,能夠將給定圖像轉換為視頻片段,同時保持內容保留約束。我們相信這些開源視頻生成模型將對社區內的技術進步做出重大貢獻。
在應用領域中,如內容生成、智能聊天機器人和情感分析等,對於大型語言模型(LLMs)的需求不斷增長,這為LLM服務提供商帶來了相當大的挑戰。為了有效利用GPU資源並提高吞吐量,批量處理多個請求已成為一種流行的範式;為了進一步加快批量處理速度,LLM量化技術減少了內存消耗並增加了計算能力。然而,目前普遍的量化方案(例如8位權重-激活量化)無法充分利用現代GPU的功能,例如4位整數運算器,導致性能不佳。 為了最大化LLMs的服務吞吐量,我們引入了Atom,一種低位量化方法,實現了高吞吐量改進,並具有可忽略的準確性損失。Atom通過使用低位運算器顯著提高服務吞吐量,並通過低位量化大幅減少內存消耗。它通過應用新穎的混合精度和細粒度量化過程實現高準確性。我們在服務上下文中的4位權重-激活量化設置上評估了Atom。與FP16相比,Atom將端到端吞吐量提高了最多7.73倍,與INT8相比提高了2.53倍,同時保持相同的延遲目標。
將自定義物件納入影像生成中,在文本到影像生成中呈現一個吸引人的特點。然而,現有基於優化和編碼器的方法受到一些缺點的阻礙,如耗時的優化、不足的身份保留以及普遍存在的複製-粘貼效應。為了克服這些限制,我們引入了CustomNet,一種新穎的物件自定義方法,明確將3D新視角合成能力融入物件自定義過程中。這種整合有助於調整空間位置關係和觀點,產生多樣的輸出,同時有效地保留物件身份。此外,我們引入精心設計,通過文本描述或特定用戶定義的圖像實現位置控制和靈活的背景控制,克服現有3D新視角合成方法的限制。我們進一步利用數據集構建流程,更好地處理現實世界的物件和複雜背景。憑藉這些設計,我們的方法實現了零樣本物件自定義,無需測試時間優化,同時實現對觀點、位置和背景的同時控制。因此,我們的CustomNet確保了增強的身份保留並生成多樣、和諧的輸出。
大型語言模型(LLMs)展現出在各種自然語言處理任務中令人印象深刻的推理和資料擴增能力。然而,小型模型呢?在這項研究中,我們提出了TeacherLM-7.1B,能夠為大多數自然語言處理樣本註釋相關基礎知識、思維鏈和常見錯誤,使註釋不僅僅是一個答案,從而讓其他模型學習“為什麼”而不僅僅是“什麼”。TeacherLM-7.1B 模型在 MMLU 上實現了 52.3 的零-shot 分數,超越了大多數具有超過 100B 參數的模型。更為顯著的是它的資料擴增能力。基於 TeacherLM-7.1B,我們擴增了 58 個自然語言處理數據集,並在多任務設置中使用 OPT 和 BLOOM 系列的各種不同參數教授了各種學生模型。實驗結果表明,TeacherLM 提供的資料擴增帶來了顯著的好處。我們將以開源形式發布 TeacherLM 系列模型和擴增數據集。
本文對當前最先進的多模式大型語言模型 GPT-4 與視覺(GPT-4V)在視覺問答(VQA)任務上的能力進行了批判性評估。我們的實驗全面評估了 GPT-4V 在回答與圖像配對的問題方面的能力,使用了來自 11 種模式(例如顯微鏡、皮膚顯微鏡、X 光、CT 等)和十五個感興趣的對象(大腦、肝臟、肺等)的病理學和放射學數據集。我們的數據集涵蓋了全面的醫學詢問範圍,包括十六種不同的問題類型。在我們的評估過程中,我們為 GPT-4V 設計了文本提示,引導它將視覺和文本信息相結合。通過準確度得分的實驗結果得出結論,即目前版本的 GPT-4V 由於在回答診斷性醫學問題時的不可靠和次優準確性,不建議用於現實世界的診斷。此外,我們描述了 GPT-4V 在醫學 VQA 中行為的七個獨特方面,突顯了其在這個複雜領域內的限制。我們的評估案例的完整詳細信息可在 https://github.com/ZhilingYan/GPT4V-Medical-Report 上找到。
隨著功能強大的封閉型 LLMs(如ChatGPT、GPT-4)的崛起,人們對將封閉型 LLMs 的能力提煉至較小的開源型 LLMs 越來越感興趣。先前的提煉方法通常促使 ChatGPT 生成一組指令和答案,供學生模型學習。然而,這種標準提煉方法忽略了學生模型的優點和條件。受現代教學原則的啟發,我們設計了一個個性化提煉過程,其中學生首先嘗試解決一個任務,然後教師提供適應性的改進,讓學生進步。與向學生灌輸教師先前知識的方式不同,個性化提煉實現了學生模型的個性化學習,因為它僅在犯錯的示例上進行學習,並學會改進自己的解決方案。在代碼生成方面,個性化提煉始終優於標準提煉,僅需三分之一的數據。通過僅有 2.5-3K 個個性化示例,產生 4-6 美元的數據收集成本,我們將 CodeGen-mono-16B 的性能提升了 7%,實現了 36.4% 的 pass@1,並將 StarCoder 的性能提升了 12.2%,實現了 45.8% 的 pass@1 在 HumanEval 上。
在這份技術報告中,我們介紹了Skywork-13B,這是一個大型語言模型(LLM)系列,是通過從英文和中文文本中提取的超過3.2萬億標記訓練而成。這個雙語基礎模型是迄今為止訓練最廣泛並且公開發布的相同規模LLM之一。我們提出了一種兩階段訓練方法,使用分段語料庫,分別針對通用訓練和特定領域增強訓練。我們展示了我們的模型不僅在流行基準測試中表現優異,而且在不同領域的中文語言建模中實現了最先進的性能。此外,我們提出了一種新穎的洩漏檢測方法,證明測試數據的污染是一個迫切需要LLM社區進一步調查的問題。為了激勵未來的研究,我們釋出了Skywork-13B以及在訓練過程中獲得的中間階段檢查點。我們還釋出了我們的SkyPile語料庫的部分內容,這是迄今為止最大的高質量開放式中文預訓練語料庫,包含超過1500億標記的網絡文本。我們希望Skywork-13B和我們的開放語料庫將成為一個有價值的開源資源,以實現高質量LLM的民主化訪問。
最近,文本轉3D生成取得了顯著進展,特別是基於得分蒸餾取樣(SDS)的方法,利用預先訓練的2D擴散模型。儘管無分類器指導的使用被廣泛認為對於成功優化至關重要,但被視為輔助技巧而非最重要的組成部分。在本文中,我們重新評估了無分類器指導在得分蒸餾中的作用,並發現了一個令人驚訝的發現:單獨的指導足以進行有效的文本轉3D生成任務。我們將此方法命名為分類器得分蒸餾(CSD),可以解釋為使用隱式分類模型進行生成。這種新觀點揭示了對現有技術的新見解。我們驗證了CSD在各種文本轉3D任務中的有效性,包括形狀生成、紋理合成和形狀編輯,在這些任務中取得了優於最先進方法的結果。我們的項目頁面是https://xinyu-andy.github.io/Classifier-Score-Distillation