每日精選AI研究論文及翻譯
我們設計了一個名為FasterViT的新型混合CNN-ViT神經網絡家族,專注於用於計算機視覺(CV)應用的高圖像吞吐量。FasterViT結合了CNN中快速局部表示學習和ViT中全局建模特性的優勢。我們新引入的分層注意(HAT)方法將具有二次複雜度的全局自注意力分解為具有降低計算成本的多級注意力。我們受益於高效的基於窗口的自注意力。每個窗口都可以訪問專用的載體令牌,這些令牌參與局部和全局表示學習。在高層次上,全局自注意力實現了以更低成本進行跨窗口通信。FasterViT在準確性與圖像吞吐量之間實現了SOTA Pareto前緣。我們已廣泛驗證了它在各種CV任務上的有效性,包括分類、目標檢測和分割。我們還展示了HAT可用作現有網絡的即插即用模塊並增強它們。我們進一步展示,對於具有高分辨率的圖像,與競爭對手相比,性能顯著更快更準確。代碼可在https://github.com/NVlabs/FasterViT找到。
培訓演算法在每個深度學習流程中都是至關重要的部分。改進能加快各種工作負載的培訓演算法(例如更好的更新規則、調整協議、學習速率表、或數據選擇方案)可以節省時間、節省計算資源,並導致更好、更準確的模型。不幸的是,作為一個社群,我們目前無法可靠地識別培訓演算法的改進,甚至無法確定當前最先進的培訓演算法。在這項研究中,我們通過具體實驗論證,加快培訓進度的真正進展需要解決實證比較培訓演算法時面臨的三個基本挑戰:(1)如何決定何時培訓完成並精確測量培訓時間,(2)如何處理測量對精確工作負載細節的敏感性,以及(3)如何公平比較需要超參數調整的演算法。為了應對這些挑戰,我們引入了一個新的、具競爭力的、基於時間結果的基準,使用固定硬體運行多個工作負載,即AlgoPerf:培訓演算法基準。我們的基準包括一組工作負載變體,使得能夠檢測比當前廣泛使用的方法更能適應工作負載變化的基準提交。最後,我們評估了使用代表當前實踐的各種優化器構建的基準提交,以及近期文獻中受到關注的其他優化器。這些基準結果共同證明了我們基準的可行性,顯示方法之間存在非微不足道的差距,並為未來基準提交設定了一個臨時的最先進水準,以便嘗試超越。
大型文本到圖像擴散模型在從文本提示生成逼真圖像方面具有令人印象深刻的能力。如何有效地引導或控制這些強大模型以執行不同下游任務成為一個重要的開放問題。為應對這一挑戰,我們引入了一種原則性的微調方法——正交微調(OFT),用於使文本到圖像擴散模型適應下游任務。與現有方法不同,OFT 可以證明地保留特徵對能量,該特徵描述了單位超球面上的成對神經元關係。我們發現這種特性對於保留文本到圖像擴散模型的語義生成能力至關重要。為了提高微調穩定性,我們進一步提出了約束正交微調(COFT),它對超球面施加了額外的半徑約束。具體而言,我們考慮了兩個重要的微調文本到圖像任務:主題驅動生成,目標是在給定主題的幾張圖像和文本提示的情況下生成特定主題的圖像,以及可控生成,目標是使模型接收額外的控制信號。我們在實驗中展示,我們的OFT 框架在生成質量和收斂速度方面優於現有方法。
現有的大型語言模型(LLMs)由於輸入長度限制只能接受固定大小的輸入,這導致無法利用過去輸入的豐富長篇內容信息。為解決此問題,我們提出了一個名為「具有長期記憶的語言模型增強框架」(LongMem)的架構,使LLMs能夠記憶長期歷史。我們設計了一種新穎的解耦網絡架構,將原始主幹LLM凍結為記憶編碼器,並設計了一個自適應殘差側網絡作為記憶檢索器和讀取器。這種解耦記憶設計可以輕鬆地緩存和更新長期過去內容,以進行記憶檢索,而不會受到記憶陳舊的影響。通過記憶增強適應訓練,LongMem可以記憶長期過去內容,並將長期記憶應用於語言建模。所提出的記憶檢索模塊可以處理其記憶庫中的無限長內容,以使各種下游任務受益。通常情況下,LongMem可以將長篇記憶擴展到65k個標記,因此可以將眾多額外示範示例作為長篇記憶進行上下文學習。實驗結果表明,我們的方法在具有挑戰性的長篇內容建模基準ChapterBreak上優於強大的長篇內容模型,並在記憶增強上下文學習方面比LLMs實現了顯著的改進。結果表明,所提出的方法對幫助語言模型記憶和利用長篇內容是有效的。我們的代碼已在https://aka.ms/LongMem上開源。
我們提出了Face0,一種新穎的方法,可以在樣本時間內立即將文本到圖像生成模型條件化為一張臉,而無需進行任何優化程序,如微調或反演。我們通過將包含的臉部嵌入與帶有標註的圖像數據集進行擴充,並在擴充的數據集上訓練圖像生成模型。一旦訓練完成,我們的系統在推論時幾乎與基礎基本模型相同,因此能夠在幾秒內生成圖像,只需提供用戶提供的臉部圖像和提示。我們的方法取得了令人滿意的結果,非常簡單,極快速,並為基礎模型提供了新的功能,如通過文本或直接操作輸入臉部嵌入來控制生成的圖像。此外,當使用固定的隨機向量而不是來自用戶提供圖像的臉部嵌入時,我們的方法基本上解決了跨圖像的一致性角色生成問題。最後,雖然需要進一步研究,但我們希望我們的方法,將模型的文本偏見與其對臉部的偏見分離開來,可能是未來文本到圖像模型中偏見的一步緩解。
我們介紹了Cap3D,一種用於生成3D物體描述性文本的自動化方法。該方法利用來自圖像標題、圖像文本對齊和LLM的預訓練模型,從多個視角的3D資產中整合標題,完全避開了耗時且昂貴的手動標註過程。我們將Cap3D應用於最近引入的大規模3D數據集Objaverse,生成了660k個3D文本對。我們的評估使用了來自同一數據集的41k個人類標註,表明Cap3D在質量、成本和速度方面優於人工撰寫的描述。通過有效的提示工程,Cap3D在來自ABO數據集的17k個收集標註上達到了與人類性能相媲美的生成幾何描述的水準。最後,我們在Cap3D和人類標題上對Text-to-3D模型進行微調,並展示Cap3D的表現優於Point-E、Shape-E和DreamFusion等最新技術水平。
語言模型已成功應用於建模自然信號,如圖像、語音和音樂。這些模型的關鍵組件是高質量的神經壓縮模型,能將高維自然信號壓縮為較低維度的離散標記。為此,我們引入了一種高保真度的通用神經音頻壓縮算法,將44.1千赫音頻以約8kbps帶寬壓縮約90倍成標記。我們通過將高保真度音頻生成的進步與來自圖像領域的更好向量量化技術相結合,以及改進的對抗和重建損失來實現這一目標。我們使用單一通用模型對所有領域(語音、環境、音樂等)進行壓縮,使其廣泛適用於所有音頻的生成建模。我們與競爭的音頻壓縮算法進行比較,發現我們的方法在性能上顯著優於它們。我們對每個設計選擇進行了徹底的消融分析,並提供了開源代碼和訓練好的模型權重。我們希望我們的工作能為下一代高保真度音頻建模奠定基礎。
我們在transformers中識別到增量學習動態,其中訓練後的權重與初始權重之間的差異在排名上逐漸增加。我們在對角權重矩陣和小初始化的簡化假設下嚴謹地證明了這一點。我們的實驗支持這一理論,並且還表明即使沒有這些簡化假設,這種現象也可能在實踐中發生。
對比式圖像-文本模型,如CLIP,是許多最先進系統的基石。儘管它們擅長識別常見的通用概念,但在稀有甚至在預訓練數據集中缺少的細粒度實體上仍然存在困難。因此,它們成功的關鍵因素之一是使用大規模策劃的預訓練數據,旨在在預訓練階段擴展它們可以記憶的概念集。在這項工作中,我們探索了將細粒度知識直接編碼到模型參數的替代方法:我們改為訓練模型從外部記憶中檢索此知識。具體而言,我們建議為現有的視覺-文本模型提供在推理時從記憶中獲取的跨模態信息以優化其嵌入,這大大提高了它們的零樣本預測。值得注意的是,我們展示可以通過在凍結的CLIP頂部使用輕量級、單層的融合Transformer來實現這一點。我們的實驗證實,我們的檢索增強對比(RECO)訓練顯著提高了CLIP在幾個具有挑戰性的細粒度任務上的性能:例如,在Stanford Cars上提高了+10.9,在CUB-2011上提高了+10.2,在最近的OVEN基準上提高了+7.3。
目前最先進的資訊提取方法受到OCR錯誤的限制。這些方法在類似表格文件中的印刷文字上表現良好,但對於非結構化的手寫文件仍然是一個挑戰。將現有模型適應到特定領域的訓練數據相當昂貴,原因在於兩個因素,一是特定領域文件的有限可用性(如手寫處方、實驗室筆記等),二是注釋變得更加困難,因為需要特定領域知識來解碼難以理解的手寫文件圖像。在這項工作中,我們專注於使用僅具弱標籤數據從手寫處方中提取藥品名稱的複雜問題。數據包括圖像以及其中的藥品名稱列表,但不包括它們在圖像中的位置。我們通過首先從僅具弱標籤識別感興趣的區域,即藥品行,然後注入僅使用合成生成數據學習的特定領域藥品語言模型來解決問題。與現成的最先進方法相比,我們的方法在從處方中提取藥品名稱方面表現提高了超過2.5倍。