每日精選AI研究論文及翻譯
生成式大型語言模型(LLMs)已開啟許多新的可能性,但由於其龐大的計算需求,廣泛應用仍具挑戰性。一些最有用的應用需要一次處理大量樣本並使用長上下文,這兩者都顯著增加了模型的記憶通訊負載。我們介紹了SparQ Attention,這是一種通過選擇性提取緩存歷史來減少注意力塊內存寬需求的技術,以增加LLMs的推論吞吐量。我們提出的技術可以直接應用於推論過程中的現成LLMs,而無需對預訓練設置進行任何修改或進行額外的微調。通過在各種下游任務上評估Llama 2和Pythia模型,我們展示了SparQ Attention如何能夠將注意力記憶寬需求降低多達八倍,而不會導致準確性下降。
本文介紹了DreaMoving,一個基於擴散的可控視頻生成框架,用於製作高質量定制的人類舞蹈視頻。具體而言,給定目標身份和姿勢序列,DreaMoving能夠生成一個展示目標身份在任何地方跳舞的視頻,受到姿勢序列驅動。為此,我們提出了一個用於運動控制的Video ControlNet和一個用於保留身份的Content Guider。所提出的模型易於使用,並且可以適應大多數風格化擴散模型以生成多樣化的結果。項目頁面可在https://dreamoving.github.io/dreamoving找到。
大多數3D生成研究專注於將2D基礎模型向上投影到3D空間,方法是通過最小化2D分數蒸餾採樣(SDS)損失或在多視圖數據集上進行微調。在沒有明確的3D先驗知識的情況下,這些方法通常會導致幾何異常和多視圖不一致。最近,研究人員試圖通過直接在3D數據集上進行訓練來提高3D物體的真實性,盡管這會導致由於3D數據集中的紋理多樣性有限而產生低質量的紋理生成。為了充分利用這兩種方法的優勢,我們提出了雙向擴散(BiDiff),這是一個統一的框架,融合了3D和2D擴散過程,分別保留了3D的忠實度和2D的紋理豐富性。此外,由於簡單的組合可能會導致不一致的生成結果,我們進一步通過新穎的雙向引導來搭建它們之間的橋樑。此外,我們的方法可以用作基於優化的模型的初始化,以進一步提高3D模型的質量和優化的效率,將生成過程從3.4小時縮短到20分鐘。實驗結果表明,我們的模型實現了高質量、多樣化且可擴展的3D生成。項目網站:https://bidiff.github.io/。
我們提出了一種方法,用於增強文本到視頻生成模型的自定義動作,擴展其能力以超越原始訓練數據中所描述的動作。通過利用少量展示特定動作的視頻樣本作為輸入,我們的方法學習並概括了用於各種文本指定情境的輸入動作模式。我們的貢獻有三個方面。首先,為了實現我們的結果,我們微調現有的文本到視頻模型,學習在輸入示例中所描述的動作與新的獨特標記之間的新映射。為了避免對新的自定義動作過度擬合,我們引入了一種視頻上的正則化方法。其次,通過利用預訓練模型中的運動先驗,我們的方法可以生成展示多人進行自定義動作的新視頻,並可以將該動作與其他動作結合起來。此外,我們的方法擴展到對運動和外觀進行多模態自定義,使得能夠生成展示獨特角色和不同動作的視頻。第三,為了驗證我們的方法,我們提出了一種方法來定量評估學習到的自定義動作並進行系統性消融研究。我們展示了,當擴展到動作自定義任務時,我們的方法在外觀為基礎的自定義方法方面明顯優於先前的方法。
隨著大型語言模型的最新進展,像是思維鏈提示這樣的方法已被證明能夠改善推理任務的結果。然而,需要多步推理的任務仍然對最先進的模型構成重大挑戰。受束狹搜索演算法的啟發,我們提出了PathFinder,一種基於樹搜索的推理路徑生成方法。通過整合動態解碼,利用不同的抽樣方法和參數,它增強了多樣分支和多跳推理。使用受限推理,PathFinder整合了新穎的質量約束、修剪和探索方法,以增強生成的效率和質量。此外,它包括評分和排名功能,以改善候選選擇。我們的方法在三個複雜的算術和常識推理任務上平均超越競爭基準6%。我們的模型對於更長、未見的推理鏈具有良好的泛化能力,反映出與具有大分支因子的束狹搜索相似的複雜性。
去噪擴散模型在2D圖像生成方面展現出優異成果,然而在3D形狀生成方面復制其成功仍然是一個挑戰。本文提出了利用多視角深度,該深度表示複雜的3D形狀以2D數據格式呈現,易於去噪。我們將這種表示與一個名為MVDD的擴散模型配對,該模型能夠生成具有20K+點且具有細緻細節的高質量密集點雲。為了在多視角深度中實現3D一致性,我們引入了一個對應到其相鄰視圖的視線線段注意力,以條件化視圖的去噪步驟。此外,還將深度融合模塊納入擴散步驟中,進一步確保深度圖的對齊。當與表面重建相結合時,MVDD還可以生成高質量的3D網格。此外,MVDD在深度完成等其他任務中表現突出,並且可以作為3D先驗,顯著提升許多下游任務,如GAN反演。通過大量實驗展示的最新成果顯示MVDD在3D形狀生成、深度完成方面具有出色的能力,以及作為下游任務的3D先驗的潛力。
我們提出了EE-LLM,一個用於大規模訓練和推斷早期退出大型語言模型(LLMs)的框架。儘管最近的研究已經顯示了早期退出在加速LLM推斷方面的有效性的初步證據,但EE-LLM通過支持使用大規模3D平行處理來訓練和推斷早期退出LLMs,邁出了擴展早期退出LLMs的基礎性一步。建立在Megatron-LM之上,EE-LLM實現了各種針對早期退出進行的算法創新和性能優化,包括一種輕量級方法,利用管道平行處理來促進早期退出訓練目標的反向傳播,以及利用原始管道計劃中的閒置資源進行與早期退出層相關的計算的技術,以及兩種與KV快取相容的早期退出推斷方法,用於自回歸生成。我們的分析和實證研究表明,與標準LLM訓練相比,EE-LLM實現了出色的訓練效率,並具有可以忽略的計算開銷,同時在不影響輸出質量的情況下實現了優越的推斷加速。為了促進進一步的研究和應用,我們在https://github.com/pan-x-c/EE-LLM 上發布了EE-LLM。
遵循視覺語言(VL)模型的指示提供了一個靈活的界面,支持以零樣本方式進行廣泛的多模式任務。然而,基於完整圖像運作的界面並不能直接讓用戶“指向”並訪問圖像中的特定區域。這種能力不僅對支持基於參考的VL基準很重要,也對需要精確圖像內推理的實際應用至關重要。我們建立了局部視覺常識模型,允許用戶指定(多個)區域作為輸入。我們通過從大型語言模型(LLM)中抽樣局部常識知識來訓練我們的模型:具體來說,我們提示LLM根據全局文字圖像描述和一組VL模型自動生成的本地文字區域描述來收集常識知識。通過一個獨立訓練的評論模型來選擇高質量示例,我們發現在局部常識語料庫上訓練可以成功地提煉現有的VL模型,以支持以參考為輸入的界面。在零樣本設置中的實證結果和人類評估表明,我們的提煉方法導致比將生成的參考表達傳遞給LLM的基準更精確的VL推理模型。