每日精選AI研究論文及翻譯
在個性化圖像合成方面取得了顯著進展,例如文本反轉、DreamBooth和LoRA等方法。然而,它們在真實應用中受到高存儲需求、冗長的微調過程以及需要多個參考圖像的限制。相反,現有的基於ID嵌入的方法,雖然僅需要單向推理,但面臨挑戰:它們要求在眾多模型參數上進行廣泛的微調,與社區預訓練模型不兼容,或無法保持高面部保真度。為解決這些限制,我們引入了InstantID,這是一種基於強大擴散模型的解決方案。我們的即插即用模塊能夠靈活處理各種風格的圖像個性化,僅使用單張面部圖像,同時確保高度保真度。為實現此目標,我們設計了一個新穎的IdentityNet,通過施加強大的語義和弱空間條件,將面部和標誌圖像與文本提示集成在一起,以引導圖像生成。InstantID展示了出色的性能和效率,在身份保護至關重要的實際應用中具有極大的好處。此外,我們的工作與流行的預訓練文本到圖像擴散模型(如SD1.5和SDXL)無縫集成,作為一個可適應的插件。我們的代碼和預訓練檢查點將在https://github.com/InstantID/InstantID 上提供。
本文介紹了AIM,一系列以自回歸目標預先訓練的視覺模型。這些模型受其文本對應物,即大型語言模型(LLMs)的啟發,並展現類似的擴展特性。具體而言,我們強調兩個關鍵發現:(1)視覺特徵的性能隨著模型容量和數據量的增加而提升,(2)目標函數的價值與模型在下游任務上的表現相關。我們通過在20億張圖像上預先訓練了一個70億參數的AIM,使用凍結的主幹在ImageNet-1k上實現了84.0%的準確率,來說明這些發現的實際含義。有趣的是,即使在這個規模下,我們觀察到性能沒有飽和的跡象,這表明AIM可能代表了訓練大規模視覺模型的新前沿。AIM的預訓練類似於LLMs的預訓練,並且不需要任何特定於圖像的策略來穩定大規模訓練。
中等大小的大型語言模型(LLMs)——具有 7B 或 13B 參數——展現出有希望的機器翻譯(MT)表現。然而,即使是表現最佳的 13B 基於 LLM 的翻譯模型,如 ALMA,也無法與最先進的傳統編碼器-解碼器翻譯模型或諸如 GPT-4 的更大規模的 LLMs 的表現相匹敵。在這項研究中,我們彌合了這種表現差距。我們首先評估了監督微調對於 LLMs 在 MT 任務中的不足之處,強調了參考數據中存在的質量問題,儘管這些數據是由人類生成的。接著,與模仿參考翻譯的 SFT 相反,我們引入了對比偏好優化(CPO),這是一種新穎的方法,訓練模型避免生成足夠但不完美的翻譯。將 CPO 應用於僅具有 22K 平行句子和 12M 參數的 ALMA 模型中,取得了顯著的改進。產生的模型,稱為 ALMA-R,可以匹敵或超越 WMT 競賽的獲勝者和 GPT-4 在 WMT'21、WMT'22 和 WMT'23 測試數據集上的表現。
通常,使用長上下文大小訓練LLM具有高計算成本,需要大量的訓練時間和GPU資源。現有的長上下文擴展方法通常需要額外的訓練程序來支持相應的長上下文窗口,其中需要長上下文訓練數據(例如32k),並且假設高GPU訓練成本。為了解決上述問題,我們提出了一種名為E 2 -LLM的大型語言模型的高效和極端長度擴展方法,僅需一個訓練程序並大幅降低計算成本,同時也無需收集長上下文數據。具體而言,首先,我們的E 2 -LLM的訓練數據僅需要較短的長度(例如4k),大大降低了調整成本。其次,在短訓練上下文窗口上的訓練程序僅執行一次,我們可以支持不同的評估上下文窗口進行推斷。第三,在E 2 -LLM中,基於RoPE位置嵌入,我們引入了兩種不同的增強方法,針對訓練中不同樣本的尺度和位置索引參數。這旨在使模型在推斷時直接插值任意上下文長度時更具韌性。對多個基準數據集的全面實驗結果證明了我們的E 2 -LLM在具有挑戰性的長上下文任務上的有效性。
儘管大型預訓練語言模型具有一般性能,但它們通常需要進一步調整以更好地實現所需的行為。然而,調整這些模型已變得日益資源密集,或在模型權重為私有時可能無法實現。我們引入了代理調整(proxy-tuning)這一輕量級解碼時間算法,它在黑盒語言模型的基礎上運行,以實現直接調整模型的結果,但僅通過訪問其對輸出詞彙的預測。我們的方法是調整一個較小的語言模型,然後應用調整後的小模型和未調整模型之間預測的差異,將基礎模型的原始預測朝著調整的方向進行調整,同時保留較大規模預訓練的好處。在實驗中,當我們將代理調整應用於Llama2-70B,並使用僅7B大小的代理時,我們可以在知識、推理和安全基準測試中,將Llama2-70B與其真正調整的對話版本之間的差距縮小88%。有趣的是,當在TruthfulQA上進行測試時,代理調整模型實際上比直接調整模型更真實,可能是因為解碼時間的引導更好地保留了模型的事實知識。然後,我們通過將其應用於代碼的領域適應和應用於問答和數學問題的任務特定微調,展示了代理調整的普遍性。我們的工作展示了使用小型調整的語言模型通過解碼時間引導高效定製大型、可能專有的語言模型的潛力。
生成模型展現了在合成高品質文本、圖像和影片方面的卓越能力。對於影片生成,當代文本到影片模型展現了令人印象深刻的能力,製作出視覺上令人驚豔的影片。然而,評估這類影片帶來了顯著挑戰。目前的研究主要採用自動化指標,如FVD、IS和CLIP分數。然而,這些指標提供了不完整的分析,特別是在對影片內容進行時間評估時,因此使它們成為真實影片品質的不可靠指標。此外,雖然用戶研究有潛力準確反映人類感知,但受到耗時且費力的性質的阻礙,其結果往往被主觀偏見所影響。在本文中,我們研究現有指標固有的限制,並引入一個新穎的評估流程,即文本到影片分數(T2VScore)。該指標整合了兩個關鍵標準:(1)文本-影片對齊,審查影片在呈現給定文本描述方面的忠實度,以及(2)影片品質,評估影片的整體製作質量,並融合專家的意見。此外,為了評估所提出的指標並促進對其未來改進,我們提出了TVGE數據集,收集了對於兩個標準上的2,543個文本到影片生成的影片的人類判斷。對TVGE數據集的實驗顯示了所提出的T2VScore在提供更好的文本到影片生成指標方面的優越性。
大型語言模型(LLMs)被認為在超出其預先訓練上下文窗口的外推能力方面存在限制,這限制了它們在具有冗長輸入的下游任務中的應用。最近的研究試圖通過修改旋轉位置嵌入(RoPE)來擴展LLMs的上下文窗口,RoPE是一種廣受歡迎的位置編碼方法,被廣泛應用於知名的LLMs,如LLaMA、PaLM和GPT-NeoX。然而,之前的作品如位置插值(PI)和YaRN耗費資源且缺乏比較實驗以評估它們的適用性。在這項工作中,我們確認了LLMs的注意熵(即注意力分數的信息熵)需要保持穩定,並引入了一種新的RoPE擴展方法,該方法結合了調整RoPE的基頻率和縮放注意力對數,以幫助LLMs有效地適應更大的上下文窗口。我們驗證了我們的方法在不同上下文窗口大小上各種上下文需求任務中的微調性能和穩健性的優越性。值得注意的是,我們的方法將LLaMA-2-7B-Chat的上下文窗口擴展到16,384,僅需100個樣本和6個訓練步驟,展示了非凡的效率。最後,我們還探討了數據組成和訓練課程如何影響特定下游任務的上下文窗口擴展,建議以冗長對話微調LLMs作為一個良好的起點。我們在https://github.com/GAIR-NLP/Entropy-ABF 上發布了我們的代碼和SFT數據。
近年來,像是 DALL-E、Craiyon 和 Stable Diffusion 等機器學習模型因其能夠從簡潔描述中生成高解析度圖像而受到廣泛關注。與此同時,量子計算展現出令人振奮的進展,特別是在量子機器學習方面,利用量子力學來滿足傳統機器學習算法日益增長的計算需求。本文探討了將量子機器學習和變分量子電路整合,以增強基於擴散的圖像生成模型的效能。具體而言,我們解決了傳統擴散模型的兩個挑戰:低取樣速度和龐大的參數需求。我們引入了兩個量子擴散模型,並使用 MNIST 數字、時尚 MNIST 和 CIFAR-10 來對其能力進行基準測試,與其傳統對應模型進行比較。我們的模型在性能指標 FID、SSIM 和 PSNR 方面超越了具有相似參數數量的傳統模型。此外,我們引入了一個一致性模型單一取樣架構,將擴散過程結合為一個步驟,實現快速的一步圖像生成。
儘管生成建模取得了最新的顯著進展,但從文本提示有效生成高質量的3D資產仍然是一項困難的任務。一個關鍵挑戰在於數據稀缺:最廣泛的3D資料集僅包含數百萬個資產,而其2D對應物包含數十億個文本-圖像對。為了應對這一挑戰,我們提出了一種新穎的方法,利用了大型預訓練的2D擴散模型的強大功能。更具體地說,我們的方法HexaGen3D對預訓練的文本到圖像模型進行微調,以共同預測6個正交投影和相應的潛在三面圖。然後,我們解碼這些潛在因素以生成帶紋理的網格。HexaGen3D不需要每個樣本進行優化,並且可以在7秒內從文本提示中推斷出高質量和多樣化的物體,相較於現有方法,提供了更好的質量和延遲之間的折衷。此外,HexaGen3D展示了對新物體或組合的強大泛化能力。