每日精選AI研究論文及翻譯
現代Transformer中昂貴的自注意力層需要記憶體和計算量與序列長度的平方成正比。現有的近似方法通常表現不佳,無法在實踐中獲得顯著的加速。在這裡,我們提出SwitchHead - 一種新穎的方法,可以減少計算和記憶體需求,實現時鐘速度加快,同時在相同參數預算下與基準Transformer的語言建模性能相匹配。SwitchHead使用專家混合(MoE)層進行值和輸出投影,比標準Transformer需要的注意力矩陣少4到8倍。我們的新型注意力還可以與MoE MLP層結合,形成高效的全MoE“SwitchAll” Transformer模型。我們的代碼是公開的。
儘管基於擴散的影片生成技術取得了快速進展,現有模型的推論結果仍然表現出令人不滿的時間一致性和不自然的動態。本文深入探討影片擴散模型中的噪聲初始化問題,發現一個隱含的訓練-推論差距導致了推論品質不佳。我們的關鍵發現是:1)推論時刻的初始潛在空間-時間頻率分佈與訓練時 intrinsically 不同,以及2)去噪過程受到初始噪聲的低頻組件的顯著影響。受到這些觀察的啟發,我們提出了一種簡潔而有效的推論取樣策略,名為 FreeInit,顯著改善了擴散模型生成的影片的時間一致性。通過在推論過程中迭代地精煉初始潛在的空間-時間低頻組件,FreeInit 能夠彌補訓練和推論之間的初始化差距,從而有效改善生成結果的主題外觀和時間一致性。大量實驗表明,FreeInit 在不需額外訓練的情況下,持續增強了各種文本到影片生成模型的生成結果。
隨著大型語言模型的最近成功,視覺語言模型(VLMs)迅速取得進展。近來在視覺指導調整方面已經有越來越多的努力,以擴展LLM並加入視覺輸入,但對視覺語言預訓練過程的深入研究尚不足,其中模型學習在兩種模態上進行聯合建模。在這項研究中,我們通過逐步可控的比較,檢視了VLM預訓練的設計選項,通過對LLM進行擴充以朝向VLM。我們提出三個主要發現:(1)在預訓練期間凍結LLMs可以實現不錯的零-shot表現,但缺乏上下文學習能力,需要解凍LLM;(2)交錯的預訓練數據是有益的,而僅有圖像-文本對並不是最佳的;(3)在指導微調期間,將僅有文本指導數據重新混合為圖像-文本數據,不僅補救了僅有文本任務的退化,還提高了VLM任務的準確性。通過增強的預訓練配方,我們建立了VILA,一個視覺語言模型系列,持續優於最先進的模型,例如LLaVA-1.5,在主要基準測試中,沒有花哨的功能。多模態預訓練還有助於揭示VILA的吸引人特性,包括多圖像推理、增強的上下文學習和更好的世界知識。
擴散模型已經取得了卓越的圖像生成質量,超越了先前的生成模型。然而,與生成對抗網絡(GANs)相比,擴散模型的一個顯著限制在於它們在兩個圖像樣本之間平滑插值的困難,這是因為它們高度非結構化的潛在空間。這種平滑插值是引人入勝的,因為它自然地作為圖像變形任務的解決方案,具有許多應用。在這項工作中,我們提出了DiffMorpher,這是第一種利用擴散模型實現平滑自然圖像插值的方法。我們的關鍵想法是通過分別對兩個圖像擬合兩個 LoRA,來捕捉這兩個圖像的語義,並在 LoRA 參數和潛在噪聲之間進行插值,以確保平滑的語義過渡,其中對應自動出現,無需注釋。此外,我們提出了一種注意力插值和注入技術,以及一種新的採樣時間表,進一步增強連續圖像之間的平滑度。大量實驗表明,DiffMorpher在各種物體類別上實現了比先前方法更好的圖像變形效果,彌合了擴散模型與 GANs 之間的一個關鍵功能差距。
最近的方法,如ControlNet,為使用者提供了對文本到圖像(T2I)擴散模型的精細空間控制。然而,為每種空間條件、模型架構和檢查點訓練輔助模組,使其與人類設計師在內容創作過程中希望傳達給AI模型的多樣意圖和偏好相抵觸。在這項工作中,我們提出了FreeControl,一種無需訓練的可控T2I生成方法,同時支持多種條件、架構和檢查點。FreeControl設計了結構引導,以促進結構與引導圖像的對齊,以及外觀引導,以實現使用相同種子生成的圖像之間的外觀共享。廣泛的定性和定量實驗證明了FreeControl在各種預訓練T2I模型上的優越性能。特別是,FreeControl促進了對許多不同架構和檢查點的便捷無需訓練的控制,允許大多數現有無需訓練方法失敗的具有挑戰性的輸入條件,並實現了與基於訓練的方法相媲美的合成質量。
評估大型語言模型(LLMs)對於評估其性能並減輕潛在安全風險至關重要。在本文中,我們介紹了PromptBench,這是一個用於評估LLMs的統一庫。它包括幾個關鍵組件,研究人員可以輕鬆使用和擴展:提示構建、提示工程、數據集和模型加載、對抗性提示攻擊、動態評估協議以及分析工具。PromptBench旨在成為一個開放、通用和靈活的代碼庫,用於研究目的,可以促進原創研究,創建新的基準、部署下游應用程序和設計新的評估協議。代碼可在以下鏈接找到:https://github.com/microsoft/promptbench,並將持續得到支持。
我們調查了預訓練基礎模型在機器人領域的應用。傳統的深度學習模型在機器人領域通常是在針對特定任務定制的小數據集上進行訓練,這限制了它們在不同應用中的適應性。相比之下,通過在互聯網規模數據上預訓練的基礎模型似乎具有更優越的泛化能力,在某些情況下展現出發現零樣本解決方案的能力,這些問題在訓練數據中並不存在。基礎模型可能具有增強機器人自主堆棧各個組件能力的潛力,從感知到決策制定和控制。例如,大型語言模型可以生成代碼或提供常識推理,而視覺語言模型可以實現開放詞彙的視覺識別。然而,仍存在重要的開放研究挑戰,特別是圍繞機器人相關訓練數據的稀缺性、安全保證和不確定性量化,以及實時執行。在這份調查中,我們研究了最近使用或構建基礎模型來解決機器人問題的論文。我們探討了基礎模型如何有助於改進機器人在感知、決策制定和控制領域的能力。我們討論了阻礙基礎模型應用於機器人自主性的挑戰,並提供未來發展的機會和潛在途徑。本文對應的GitHub項目(初步版本。我們致力於進一步增強和更新此工作,以確保其質量和相關性)可以在此處找到:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
由於大型語言模型(LLMs)的規模龐大,直接應用傳統的壓縮方法變得不切實際。即使是最小的梯度更新也需要大量計算,尤其是在消費級硬件上。本文介紹了一種基於降階建模的創新方法,用於對LLMs進行參數化和實用壓縮,其中包括在特徵空間內進行低秩分解並在權重空間內重新參數化。值得注意的是,這種壓縮技術以分層方式運作,無需GPU設備,並能夠在嚴格的記憶體和時間限制下對十億級模型進行壓縮。我們的方法通過利用矩陣分解在模型壓縮方面取得了重大進展,與目前主流的結構化修剪方法相比,表現出更優越的效能。
最近的研究在將對齊技術應用於增強大型語言模型(LLMs)的幫助性和無害性方面取得了顯著進展,以符合人類意圖。在本文中,我們主張對於誠實性而言,對齊的重要性在於確保LLMs在缺乏知識時主動拒絕回答問題,同時又不過於保守。然而,對於誠實性的對齊的一個關鍵方面涉及識別LLM知識的界限,這遠非易事。這一挑戰需要在度量開發、基準創建和訓練方法論方面提供全面的解決方案。在本文中,我們通過首先確立精確的問題定義並根據《論語》中的啟發來定義“誠實”,來應對這些挑戰。這為通過量化對齊後LLM的進展來有效衡量其誠實性的指標的發展奠定了基礎。此外,我們引入了一個靈活的訓練框架,進一步通過幾種強調誠實性而不犧牲其他任務表現的高效微調技術來實現。我們的廣泛實驗顯示,這些對齊模型在誠實性方面表現出明顯提高,這是由我們提出的指標所顯示的。我們開源了大量資源以促進未來研究,包括誠實對齊模型、用於誠實對齊的訓練和評估數據集、概念詞彙表,以及所有相關源代碼,網址為https://github.com/GAIR-NLP/alignment-for-honesty。
我們提出了FIND,一個用於對齊基礎模型嵌入的通用化界面。如預告圖所示,一個輕量級的Transformer界面,無需調整任何基礎模型權重,就足以實現統一的圖像(分割)和數據集級(檢索)理解。所提出的界面具有以下有利特性:(1) 可泛化。它適用於各種任務,包括檢索、分割等,在相同的架構和權重下。(2) 可原型化。通過原型化注意力遮罩和嵌入類型,不同任務能夠被實現。(3) 可擴展。所提出的界面能夠適應新任務和新模型。(4) 可交錯。借助多任務多模態訓練的好處,所提出的界面創建了一個交錯共享嵌入空間。基於交錯嵌入空間,我們引入了FIND-Bench,為COCO數據集引入了新的訓練和評估標註,用於交錯分割和檢索。我們的方法在FIND-Bench上實現了最先進的性能,並在標準檢索和分割設置上實現了競爭性的性能。訓練、評估和演示代碼以及數據集已在https://github.com/UX-Decoder/FIND 上發布。
儘管神經渲染在場景重建和新視角合成方面取得了令人印象深刻的進展,但它在很大程度上依賴於準確預先計算的攝像機位置。為了放寬這種限制,已經做出了多項努力,以無需預處理攝像機位置的方式訓練神經輻射場(NeRFs)。然而,NeRFs的隱式表示提供了額外的挑戰,同時優化3D結構和攝像機位置。另一方面,最近提出的3D高斯點雲投影提供了新的機會,因為它具有明確的點雲表示。本文利用明確的幾何表示和輸入視頻流的連續性,執行新視角合成,無需任何SfM預處理。我們以順序方式處理輸入幀,並逐步擴展3D高斯集合,一次處理一個輸入幀,無需預先計算攝像機位置。我們的方法在大幅運動變化下的視角合成和攝像機姿態估計方面明顯優於先前的方法。我們的專案頁面為https://oasisyang.github.io/colmap-free-3dgs
一致性模型(CMs)在高效且高品質地創建視覺內容方面顯示出潛力。然而,尚未探索將新的條件控制添加到預訓練的CMs的方法。在本技術報告中,我們考慮了為CMs添加類似ControlNet的條件控制的替代策略並提出了三個重要發現。1)針對擴散模型(DMs)訓練的ControlNet可以直接應用於CMs以進行高層語義控制,但在低層細節和逼真控制方面存在困難。2)CMs作為一類獨立的生成模型,可以基於此對其進行從頭開始訓練ControlNet,使用了宋等人提出的一致性訓練。3)通過一致性訓練可以聯合優化輕量級適配器,在多種條件下,實現基於DMs的ControlNet快速轉移到CMs。我們研究了這三種解決方案在各種條件控制上的應用,包括邊緣、深度、人體姿勢、低分辨率圖像以及帶有文本到圖像潛在一致性模型的遮罩圖像。
我們介紹了對語言模型進行引導的創新方法——對比激活添加(Contrastive Activation Addition,CAA)。CAA通過在前向傳遞期間修改激活來計算“引導向量”,這些向量是通過對特定行為(例如事實性與幻覺性回應)的正負示例之間的殘差流激活差的平均值來計算的。在推斷過程中,這些引導向量以正或負係數添加到用戶提示後的所有標記位置,從而精確控制目標行為的程度。我們在Llama 2 Chat上使用多選行為問題數據集和開放生成任務評估了CAA的有效性。我們展示了CAA顯著改變模型行為,優於微調和少樣本提示等傳統方法,並且僅對能力進行了最小程度的降低。此外,通過應用各種激活空間解釋方法,我們對CAA的機制有了更深入的了解。CAA不僅可以準確引導模型輸出,還可以揭示大型語言模型(LLMs)中高級概念的表示方式。
在多模式大型語言模型(MLLMs)中,視覺投影器在將預先訓練的視覺編碼器與LLMs連接方面發揮著關鍵作用,實現深刻的視覺理解,同時利用LLMs的強大功能。儘管視覺投影器的重要性不言而喻,但相對較少有人探索。在本研究中,我們首先確定了兩個重要的投影器特性:(i)靈活管理視覺標記數量,對於MLLMs的整體效率至關重要,以及(ii)保留來自視覺特徵的局部上下文,對於空間理解至關重要。基於這些發現,我們提出了一種新穎的投影器設計,既具靈活性又增強了局部性,有效滿足了這兩個理想特性。此外,我們提出了全面的策略,以有效利用多個和多方面的指導數據集。通過大量實驗,我們檢驗了個別設計選擇的影響。最後,我們提出的MLLM,Honeybee,在各種基準測試中顯著優於以往的最先進方法,包括MME、MMBench、SEED-Bench和LLaVA-Bench,實現了顯著更高的效率。代碼和模型可在https://github.com/kakaobrain/honeybee 上找到。
最近在文本轉視頻生成方面取得了很大的進展,最先進的模型能夠生成高質量、逼真的視頻。然而,這些模型缺乏用戶互動控制和生成視頻的能力,這可能會開啟新的應用領域。作為實現這一目標的第一步,我們著手解決賦予基於擴散的視頻生成模型對其輸出進行互動式時空控制的問題。為此,我們從最近在分割文獻中的進展中汲取靈感,提出了一個新穎的時空遮罩關注模塊 - Peekaboo。該模塊是一個無需訓練、無推理開銷的附加組件,可應用於現成的視頻生成模型,實現時空控制。我們還提出了一個互動式視頻生成任務的評估基準。通過廣泛的定性和定量評估,我們確定 Peekaboo 實現了對視頻生成的控制,甚至在 mIoU 上取得了高達 3.8 倍的增益,超過了基準模型。
在機器學習中,對抗分布轉移的泛化能力──即部署條件與訓練情境不同──對於氣候建模、生物醫學和自動駕駛等領域至關重要。基礎模型的出現,以其廣泛的預訓練和任務多功能性而著稱,引發了對其適應分布轉移能力的增加興趣。GPT-4V(ision)作為最先進的可公開訪問的多模態基礎模型,在各個領域廣泛應用,包括異常檢測、視頻理解、圖像生成和醫學診斷。然而,其對抗數據分布的穩健性仍然鮮为人知。為填補這一空白,本研究嚴格評估了GPT-4V在動態環境中的適應性和泛化能力,並與CLIP和LLaVA等知名模型進行了對比。我們深入探討了GPT-4V在自然、醫學和分子領域涵蓋的13個不同數據集上的零樣本泛化。我們進一步研究了其對受控數據干擾的適應性,並檢驗了上下文學習作為增強其適應性的工具的有效性。我們的研究結果勾勒了GPT-4V在分布轉移中的能力邊界,闡明了其在各種情境下的優勢和局限性。重要的是,這項研究有助於我們了解AI基礎模型如何對抗分布轉移,提供了對其適應性和穩健性的重要見解。代碼可在https://github.com/jameszhou-gl/gpt-4v-distribution-shift 公開獲取。
擴散Transformer最近在生成高質量的3D點雲方面表現出卓越的效果。然而,訓練基於體素的擴散模型以高分辨率3D體素仍然過於昂貴,這是由於注意力操作符的立方複雜度,這是由體素的額外維度引起的。受3D相對於2D的固有冗餘性的啟發,我們提出了FastDiT-3D,這是一種針對高效3D點雲生成的新型遮罩式擴散Transformer,大大降低了訓練成本。具體而言,我們從遮罩式自編碼器中汲取靈感,動態地在遮罩式體素化的點雲上進行去噪過程。我們還提出了一種新穎的體素感知遮罩策略,以自適應地聚合來自體素化點雲的背景/前景信息。我們的方法以近99%的極端遮罩比率實現了最先進的性能。此外,為了改善多類別3D生成,我們在3D擴散模型中引入了專家混合(MoE)。每個類別可以通過不同專家學習不同的擴散路徑,從而減輕梯度衝突。在ShapeNet數據集上的實驗結果表明,我們的方法實現了最先進的高保真度和多樣性的3D點雲生成性能。我們的FastDiT-3D在生成128分辨率體素點雲時,僅使用原始訓練成本的6.5%,提高了1-最近鄰準確度和覆蓋率指標。
決策支援系統成功的關鍵因素之一是準確建模使用者偏好。心理學研究表明,使用者通常在引出過程中形成他們的偏好,突顯系統與使用者互動在發展個性化系統中的關鍵作用。本文介紹了一種新方法,將大型語言模型(LLMs)與約束編程結合,以促進互動式決策支援。我們通過會議安排的角度研究了這種混合框架,這是許多信息工作者每天都要面對的耗時活動。我們進行了三項研究來評估這種新框架,包括一項日誌研究(n=64)來描述情境安排偏好,對系統性能的定量評估,以及一項使用原型系統的使用者研究(n=10)。我們的工作突出了混合LLM和優化方法在迭代偏好引出和設計考慮方面的潛力,以構建支持人機協作決策過程的系統。