每日精選AI研究論文及翻譯
隨著大型語言模型的增加,部署面臨挑戰,並引起對高能耗對環境的擔憂。在這項工作中,我們介紹了BitNet,這是一種可擴展且穩定的1位元Transformer架構,專為大型語言模型而設計。具體來說,我們引入了BitLinear,作為nn.Linear層的即插即用替代方案,以便從頭開始訓練1位元權重。語言建模的實驗結果顯示,與最先進的8位元量化方法和FP16 Transformer基準相比,BitNet實現了競爭性能,同時顯著減少了內存佔用和能耗。此外,BitNet表現出與全精度Transformer相似的擴展規律,表明其具有潛力有效擴展至更大的語言模型,同時保持效率和性能優勢。
本文旨在實現動態3D場景的高保真度和實時視角合成,達到4K分辨率。最近,一些動態視角合成方法展現了令人印象深刻的渲染質量。然而,在渲染高分辨率圖像時,它們的速度仍然受限。為了克服這個問題,我們提出了4K4D,一種支持硬體光柵化並實現前所未有渲染速度的4D點雲表示法。我們的表示法建立在4D特徵網格上,使得點自然地被規範化並能夠穩健地進行優化。此外,我們設計了一種新型混合外觀模型,顯著提升了渲染質量同時保持效率。此外,我們開發了一種可微的深度剝離算法,有效地從RGB視頻中學習所提出的模型。實驗表明,我們的表示法在DNA-Rendering數據集上以1080p分辨率以每秒超過400幀的速度進行渲染,在ENeRF-Outdoor數據集上以4K分辨率以每秒80幀的速度進行渲染,使用RTX 4090 GPU,比以往方法快30倍,並實現了最先進的渲染質量。我們將釋出代碼以供重現。
低秩適應(LoRA)是一種流行的方法,用於微調大型語言模型時減少可訓練參數的數量,但在擴展到更大模型或部署眾多每個用戶或每個任務適應模型時仍面臨嚴重的存儲挑戰。在這項工作中,我們提出了基於向量的隨機矩陣適應(VeRA),與LoRA相比,可將可訓練參數減少10倍,並保持相同性能。它通過在所有層之間使用一對低秩矩陣並學習小的縮放向量來實現這一目標。我們在GLUE和E2E基準測試上展示了其有效性,並展示了它在指令遵循中的應用,僅使用Llama2 7B模型的1.4M參數。
我們提出了一種名為Mark集(SoM)的新視覺提示方法,旨在發揮大型多模型(LMMs)如GPT-4V的視覺基礎能力。如右圖1所示,我們使用SAM等現成的互動分割模型,將圖像劃分為不同粒度的區域,並在這些區域上覆蓋一組標記,例如字母數字、遮罩、框等。使用標記圖像作為輸入,GPT-4V可以回答需要視覺基礎的問題。我們進行了全面的實證研究,驗證了SoM在各種精細視覺和多模式任務上的有效性。例如,我們的實驗表明,具有SoM的GPT-4V在RefCOCOg的零樣本設置下優於最先進的完全微調指涉分割模型。
近年來,視覺與語言生成模型已經蓬勃發展。對於視頻生成,各種開源模型和公開服務已被釋出,用於生成高視覺質量的視頻。然而,這些方法通常使用一些學術指標,例如FVD或IS,來評估性能。我們認為從簡單的指標來判斷大型條件生成模型是困難的,因為這些模型通常是在非常大的數據集上訓練的,具有多方面的能力。因此,我們提出了一個新的框架和流程,來全面評估生成的視頻的性能。為了實現這一目標,我們首先通過分析真實世界的提示列表,借助大型語言模型,來進行文本到視頻生成的新提示列表。然後,我們根據視覺質量、內容質量、運動質量以及文本-標題對齊等約18個客觀指標,在我們精心設計的基準測試上評估最先進的視頻生成模型。為了獲得模型的最終排行榜,我們還擬合了一系列係數,將客觀指標與用戶意見對齊。基於所提出的意見對齊方法,我們的最終得分顯示出比簡單平均指標更高的相關性,展示了所提出的評估方法的有效性。
像ChatGPT這樣的大型語言模型展示了在推論過程中學習新概念的卓越能力,而無需進行任何微調。然而,訓練用於在推論過程中檢測新物體的視覺模型卻無法複製這種能力,而是表現不佳,或者需要在類似物體上進行元訓練和/或微調。在這項工作中,我們提出了一種模擬大型語言模型的元學習算法,通過在推論過程中學習新的視覺概念而無需微調。我們的方法利用凍結的預訓練特徵提取器,類似於上下文學習,將元學習重新塑造為對具有已知標籤的數據點和具有未知標籤的測試數據點進行序列建模。在11個元學習基準中的8個中,我們的方法 - 無需元訓練或微調 - 超過或與最先進的算法P>M>F相匹配,後者在這些基準上進行了元訓練。
如何在不降低性能的情況下減少神經網絡(NNs)的計算和記憶體需求?許多最近的研究使用稀疏的專家混合(MoEs)來構建資源高效的大型語言模型(LMs)。在這裡,我們介紹了幾個關於MoEs的新觀點,提出了一個統一各種方法的通用框架,以近似兩層NNs(例如,Transformer的前饋塊)的方法,包括產品-鍵記憶(PKMs)。利用這個框架的見解,我們提出了改進MoEs和PKMs的方法。與先前將MoEs與密集基準在計算相等條件下進行比較的工作不同,我們的評估條件是參數相等,這對於正確評估LMs至關重要。我們展示了我們的MoEs在WikiText-103和enwiki8數據集上以兩種不同規模競爭密集的Transformer-XL,同時更加資源高效。這表明MoEs不僅與極大型的LMs相關,也與任何規模的資源高效LMs相關。我們的程式碼是公開的。
隨著大型語言模型(LLMs)變得更加普及,對於新型和改進的量化方法的需求日益增加,這些方法需要滿足現代架構的計算需求,同時保持準確性。在本文中,我們提出了TEQ,一種可訓練的等效轉換,它在保持模型輸出的FP32精度的同時,利用低精度量化,特別是3位和4位僅權重量化。訓練過程輕量級,僅需1K步驟和少於原始模型可訓練參數的0.1%。此外,該轉換在推論過程中不會增加任何計算開銷。我們的結果與典型LLMs的最新方法相當。我們的方法可以與其他方法結合,以獲得更好的性能。代碼可在https://github.com/intel/neural-compressor找到。
隨著基於擴散的文本轉圖像生成技術取得令人印象深刻的進展,將這種強大的生成能力擴展到文本轉視頻引起了廣泛關注。現有方法要麼需要大規模的文本-視頻配對數據和大量訓練資源,要麼學習與模板視頻精確對齊的運動。在視頻生成中平衡生成自由度與資源成本之間的取捨並不簡單。在我們的研究中,我們提出了一個基於少樣本調整的框架 LAMP,該框架使得文本轉圖像擴散模型能夠在單個 GPU 上通過 8~16 個視頻學習特定運動模式。具體而言,我們設計了一個以第一幀為條件的流程,該流程使用現成的文本轉圖像模型進行內容生成,使我們調整的視頻擴散模型主要集中於運動學習。成熟的文本轉圖像技術可以提供視覺上令人愉悅和多樣化的內容作為生成條件,這極大地提高了視頻質量和生成自由度。為了捕捉時間維度的特徵,我們將預訓練的 2D 卷積層擴展為我們的新型時空運動學習層,並將注意力塊修改為時間級別。此外,我們開發了一種有效的推斷技巧,即共享噪聲抽樣,可以提高視頻的穩定性並降低計算成本。我們的方法還可以靈活應用於其他任務,例如現實世界圖像動畫和視頻編輯。大量實驗表明,LAMP 能夠有效地從有限數據中學習運動模式並生成高質量的視頻。代碼和模型可在 https://rq-wu.github.io/projects/LAMP 上獲得。
程式碼完成模型近年來取得了顯著進展,然而當前流行的評估資料集,如HumanEval和MBPP,主要集中在單一檔案內的程式碼完成任務上。這種過於簡化的設定無法充分代表現實世界的軟體開發情境,其中存儲庫涵蓋多個檔案,具有眾多跨檔案依賴,並且通常需要存取和理解跨檔案上下文才能正確完成程式碼。 為填補這一空白,我們提出CrossCodeEval,這是一個多樣且多語言的程式碼完成基準測試,需要深入了解跨檔案上下文才能準確完成程式碼。CrossCodeEval建立在一組多樣的真實世界、開源、權限開放的存儲庫上,涵蓋四種流行的程式設計語言:Python、Java、TypeScript和C#。為了創建嚴格需要跨檔案上下文才能準確完成的範例,我們提出了一種簡單而高效的基於靜態分析的方法,來準確指出當前檔案中使用跨檔案上下文的地方。 對於像CodeGen和StarCoder等最先進的程式碼語言模型的廣泛實驗表明,當相關的跨檔案上下文缺失時,CrossCodeEval是極具挑戰性的,並且在將這些上下文添加到提示中時,我們看到明顯的改善。然而,儘管有這些改進,即使使用最佳表現的模型,性能的巔峰仍然尚未達到,這表明CrossCodeEval也能夠評估模型在利用廣泛上下文以實現更好的程式碼完成方面的能力。最後,我們對檢索跨檔案上下文的各種方法進行了基準測試,並展示CrossCodeEval也可用於評估程式碼檢索器的能力。