每日精選AI研究論文及翻譯
本研究介紹了Weaver,我們首個專注於內容創作的大型語言模型(LLMs)家族。Weaver在一個精心挑選的語料庫上進行預訓練,專注於提升大型語言模型的寫作能力。然後,我們對Weaver進行微調,用於創意和專業寫作,並通過一套新穎的方法進行指導數據合成和LLM對齊,使其能夠生成更接近人類的文本,並遵循更多樣化的內容創作指令。Weaver家族包括Weaver Mini(1.8B)、Weaver Base(6B)、Weaver Pro(14B)和Weaver Ultra(34B)等不同尺寸的模型,適用於不同應用,並可根據查詢複雜度由路由代理動態調度,以平衡響應質量和計算成本。在一個精心策劃的基準測試中評估LLMs的寫作能力,顯示Weaver各尺寸的模型在性能上優於比它們大數倍的通用LLMs。值得注意的是,我們最強大的Weaver Ultra模型在各種寫作場景中超越了GPT-4,一個最先進的通用LLM,展示了專門為寫作目的訓練LLMs的優勢。此外,Weaver原生支持檢索增強生成(RAG)和函數調用(工具使用)。我們展示了這些能力的各種用例,用於改進AI輔助寫作系統,包括整合外部知識庫、工具或API,以及提供個性化的寫作輔助。此外,我們討論並總結了領域特定LLMs的預訓練和微調的指南和最佳實踐。
You Only Look Once (YOLO) 系列檢測器已被證明是高效且實用的工具。然而,它們對預定義和訓練好的物件類別的依賴限制了它們在開放場景中的應用。為了解決這個限制,我們引入了 YOLO-World,這是一種創新方法,通過視覺-語言建模和在大規模數據集上的預訓練來增強 YOLO 的開放詞彙檢測能力。具體來說,我們提出了一種新的可重新參數化視覺-語言路徑聚合網絡(RepVL-PAN)和區域-文本對比損失,以促進視覺和語言信息之間的交互作用。我們的方法在零樣本方式下以高效率優異地檢測各種物件。在具有挑戰性的 LVIS 數據集上,YOLO-World 在 V100 上實現了 35.4 的 AP,並以 52.0 FPS 的速度優於許多最先進的方法,無論是在準確性還是速度方面。此外,經過微調的 YOLO-World 在幾個下游任務上表現出色,包括物件檢測和開放詞彙實例分割。
我們提出了BlockFusion,這是一種基於擴散的模型,以單元塊生成3D場景,並無縫地整合新的塊以擴展場景。BlockFusion使用從完整3D場景網格中隨機裁剪的3D塊數據集進行訓練。通過逐塊擬合,所有訓練塊都被轉換為混合神經場:包含幾何特徵的三平面,然後是用於解碼符號距離值的多層感知器(MLP)。變分自編碼器用於將三平面壓縮為潛在三平面空間,對其執行去噪擴散過程。擴散應用於潛在表示,可實現高質量和多樣化的3D場景生成。在生成過程中擴展場景時,只需附加空塊以與當前場景重疊,並外推現有的潛在三平面以填充新塊。外推是通過在去噪迭代期間使用來自重疊三平面的特徵樣本來條件生成過程完成的。潛在三平面外推產生在語義和幾何上有意義的過渡,與現有場景和諧融合。使用2D佈局條件機制來控制場景元素的放置和排列。實驗結果表明,BlockFusion能夠生成多樣化、幾何一致且無限大的3D場景,無論是室內還是室外場景,形狀質量都具有前所未有的高質量。
為了利用語言模型進行視覺合成,傳統方法將點陣圖像資訊通過專門的視覺模組轉換為離散的網格標記,同時干擾了模型捕捉視覺場景真實語義表示的能力。本文認為,圖像的另一種表示形式,即向量圖形,可以有效克服這一限制,通過實現對圖像資訊更自然和語義一致的分割。因此,我們介紹了StrokeNUWA,這是一項開創性工作,探索在向量圖形上更好的視覺表示「筆劃標記」,這種表示在視覺語義方面豐富,與語言模型自然兼容並且高度壓縮。憑藉筆劃標記,StrokeNUWA在向量圖形生成任務中可以明顯超越傳統基於語言模型和基於優化的方法在各種指標上的表現。此外,StrokeNUWA在推理速度上實現了高達94倍的加速,並具有出色的SVG代碼壓縮比達6.9%。
在快速發展的語音生成模型領域中,迫切需要確保音頻真實性,以防止語音克隆的風險。我們提出了AudioSeal,這是專為本地化檢測人工智慧生成語音而設計的第一個音頻水印技術。AudioSeal採用了一種生成器/檢測器架構,通過聯合訓練本地化損失,實現了直到樣本級別的本地化水印檢測,並採用了一種受聽覺掩蔽啟發的新型感知損失,使AudioSeal能夠實現更好的不可察覺性。在自動和人工評估指標方面,AudioSeal實現了最先進的性能,具有抵抗現實音頻操作和不可察覺性的能力。此外,AudioSeal設計了一個快速的單通過檢測器,顯著超越現有模型的速度 - 實現了高達兩個數量級的更快檢測速度,使其非常適用於大規模和實時應用。
我們介紹了H2O-Danube-1.8B,一個在1T tokens上訓練的1.8B語言模型,遵循LLama 2和Mistral的核心原則。我們利用並改進了各種技術來預訓練大型語言模型。儘管我們的模型在總token數方面比類似大小的參考模型訓練得少得多,但在眾多基準測試中展現出高競爭力的指標。我們另外釋出了一個經過監督微調和直接偏好優化訓練的聊天模型。我們通過Apache 2.0許可證公開提供H2O-Danube-1.8B,進一步使更廣泛的受眾在經濟上能夠使用LLM。
在這份報告中,我們探討了文字擴散取代自回歸(AR)解碼在訓練和部署大型語言模型(LLMs)時的潛力。我們特別感興趣的是,預訓練的AR模型是否可以通過我們稱為“AR2Diff”的輕量級適應程序轉換為文字擴散模型。我們首先建立了一個強大的基準訓練文字擴散模型的設置。通過比較多種架構和預訓練目標,我們發現僅使用解碼器模型並具有前綴LM目標的訓練方式在多個任務中是最佳或接近最佳的。基於這一發現,我們測試了各種用於文字擴散模型的遷移學習設置。在機器翻譯方面,我們發現文字擴散效果不如標準的AR方法。然而,在代碼合成和抽取式問答方面,我們發現從頭開始訓練的擴散模型在許多情況下優於AR模型。我們還觀察到從AR轉換為使用擴散解碼的AR2Diff中獲得了質量提升。這些結果是令人鼓舞的,因為文字擴散相對未被充分探索,並且在長文本生成方面可以顯著比AR解碼更快。
儘管已經投入了大量努力來對齊大型語言模型(LLMs),紅隊報告表明,這些經過精心對齊的LLMs仍然可能通過對抗提示、調整或解碼而被破解。在檢驗對齊LLMs的破解漏洞時,我們觀察到破解和對齊模型的解碼分佈只在初始生成階段有所不同。這一觀察激發了我們提出弱到強破解攻擊的想法,對手可以利用較小的不安全/對齊LLMs(例如7B)來引導針對遠比其大得多的對齊LLMs(例如70B)的破解。要進行破解,只需要額外解碼兩個較小的LLMs一次,與解碼較大的LLMs相比,這涉及的計算量和延遲很少。通過對三個不同組織的五個模型進行的實驗,證明了這種攻擊的有效性。我們的研究揭示了一種以前未被注意但有效的破解方式,揭示了在對齊LLMs時需要考慮的一個迫切的安全問題。作為一次初步嘗試,我們提出了一種防禦策略來防範此類攻擊,但創建更先進的防禦措施仍然具有挑戰性。複製該方法的代碼可在以下網址找到:https://github.com/XuandongZhao/weak-to-strong
目前的圖像操作主要集中在靜態操作,例如替換圖像中的特定區域或改變其整體風格。在本文中,我們介紹了一個創新的動態操作任務,主題重新定位。這個任務涉及將用戶指定的主題移到所需位置,同時保持圖像的忠實度。我們的研究顯示,主題重新定位的基本子任務,包括填補重新定位主題留下的空白、重建被遮蔽的主題部分以及將主題與周圍區域保持一致,可以有效地重構為統一的、受提示引導的修補任務。因此,我們可以利用單一擴散生成模型來處理這些子任務,使用通過我們提出的任務反演技術學習的各種任務提示。此外,我們還整合了預處理和後處理技術,以進一步提高主題重新定位的質量。這些元素共同構成了我們的SEgment-gEnerate-and-bLEnd(SEELE)框架。為了評估SEELE在主題重新定位中的有效性,我們收集了一個名為ReS的現實主題重新定位數據集。我們在ReS上的結果展示了重新定位圖像生成的質量。
最近的研究主張採用完全開放的基礎模型來促進透明度和開放科學。作為一個初始步驟,開放式Whisper風格語音模型(OWSM)使用公開可用的數據和開源工具包復制了OpenAI的Whisper。為了復制Whisper,先前的OWSM v1到v3模型仍然基於Transformer,這可能導致性能不及其他最先進的語音編碼器。在這項工作中,我們旨在提高OWSM的性能和效率,而無需額外的訓練數據。我們提出基於E-Branchformer的OWSM v3.1模型,分為100M和1B兩個規模。1B模型是迄今為止公開發布的最大基於E-Branchformer的語音模型。它在絕大多數評估基準中優於先前的OWSM v3,同時展示了高達25%的更快推理速度。我們公開發布數據準備腳本、預訓練模型和訓練日誌。
圖像修復是一個基本問題,涉及從降質觀察中恢復高質量乾淨圖像。全能圖像修復模型可以有效地從各種類型和程度的降質中恢復圖像,利用特定於降質的信息作為提示來引導修復模型。在這項工作中,我們提出了第一種使用人類撰寫指令來引導圖像修復模型的方法。在給定自然語言提示的情況下,我們的模型可以從其降質對應物中恢復高質量圖像,考慮多種降質類型。我們的方法InstructIR 在包括圖像去噪、去雨、去模糊、去霧和(低光)圖像增強在內的多個修復任務上實現了最先進的結果。InstructIR 比先前的全能修復方法提高了 +1dB。此外,我們的數據集和結果為基於文本引導的圖像修復和增強的新研究建立了一個新的基準。我們的代碼、數據集和模型可在以下網址找到:https://github.com/mv-lab/InstructIR
儘管大型語言模型(LLMs)越來越多地用於程序合成,但它們缺乏開發有用抽象所需的全局視圖;通常它們一次預測一個程序,並且經常重複相同的功能。從頭開始生成冗餘代碼既低效又容易出錯。為了解決這個問題,我們提出了用於通用抽象學習的重構(ReGAL)方法,這是一種無梯度的方法,通過代碼重構來學習一個可重複使用的函數庫,即重組代碼而不改變其執行輸出。ReGAL從一小組現有程序中學習,通過執行逐步驗證和完善其抽象。我們發現,ReGAL發現的共享函數庫使跨不同領域的程序更容易預測。在三個數據集(LOGO圖形生成、日期推理和TextCraft,一個基於Minecraft的文本遊戲)上,無論是開源還是專有的LLMs,在預測具有ReGAL函數的程序時都提高了準確性。對於CodeLlama-13B,ReGAL在圖形方面的絕對準確性提高了11.5%,在日期理解方面提高了26.1%,在TextCraft方面提高了8.1%,在三個領域中有兩個優於GPT-3.5。我們的分析顯示,ReGAL的抽象封裝了常用的子程序以及環境動態。
目前大型視覺語言模型(VLMs)常常面臨挑戰,例如單一視覺組件能力不足和視覺標記過長。這些問題可能限制模型在準確解釋複雜視覺信息和過長上下文信息方面的效能。解決這些挑戰對於提升VLMs的性能和應用至關重要。本文提出使用集成專家技術來協同個別視覺編碼器的能力,包括擅長圖像-文本匹配、OCR、圖像分割等。該技術引入融合網絡來統一處理來自不同視覺專家的輸出,同時彌合圖像編碼器和預訓練LLMs之間的差距。此外,我們探索不同的位置編碼方案,以減輕因長度過長的圖像特徵序列而導致位置編碼浪費的問題,有效解決位置溢出和長度限制問題。例如,在我們的實作中,這個技術將像SAM這樣的模型中的位置佔用從大量的4096顯著降低到更高效且易管理的64,甚至降至1。實驗結果顯示,具有多個專家的VLMs表現出比獨立視覺編碼器更為優越的性能,隨著更多專家的整合,性能得到顯著提升。我們已經在本報告中公開了使用的訓練代碼。所有這些資源都可以在我們的項目網站上找到。
大型語言模型在訓練和推斷中越來越依賴分佈式技術。這些技術需要跨設備進行通信,隨著設備數量的增加,可能會降低擴展效率。雖然一些分佈式技術可以重疊,從而隱藏這種通信與獨立計算,但諸如「張量平行性」(Tensor Parallelism,TP)之類的技術在模型執行中固有地序列化通信。一種隱藏這種序列化通信的方法是以精細的方式將其與生產者操作(通信數據的生產者)交織在一起。然而,在軟件中進行這種通信和計算的精細交織可能會很困難。此外,與任何並行執行一樣,它需要在計算和通信之間共享計算和內存資源,這將導致資源爭奪,進而降低重疊效率。 為了克服這些挑戰,我們提出了T3,它應用硬體軟體協同設計,以在最小化與計算的資源爭奪的同時透明地重疊序列化通信。T3通過對生產者的輸出地址空間進行簡單配置,要求進行輕微軟體更改,透明地將生產者操作與後續通信融合在一起。在硬體層面,T3添加了輕量級的跟踪和觸發機制來協調生產者的計算和通信。它進一步利用增強計算的記憶體來進行通信的相關計算。因此,T3減少了資源爭奪,並有效地將序列化通信與計算重疊。對於像T-NLG這樣重要的Transformer模型,T3將通信密集的子層加速了30%的幾何平均值(最大47%),並將數據移動減少了22%的幾何平均值(最大36%)。此外,T3的好處在模型擴展時仍然存在:對於sim500億參數模型PALM和MT-NLG中的子層,幾何平均值為29%。