每日精選AI研究論文及翻譯
我們介紹了 Byte Latent Transformer (BLT),這是一種新的位元級別的LLM架構,首次在規模上與基於標記化的LLM性能相匹配,同時在推理效率和韌性方面有顯著改進。BLT將位元編碼成動態大小的補丁,這些補丁作為計算的主要單位。補丁根據下一個位元的熵進行分段,根據增加的數據複雜性需求,分配更多的計算和模型容量。我們提出了第一個以FLOP為控制的位元級別模型擴展研究,涵蓋了高達8B參數和4T訓練位元的範圍。我們的結果表明,在沒有固定詞彙表的情況下擴展以原始位元進行訓練的模型是可行的。當數據可預測時,通過動態選擇長補丁,訓練和推理效率均有所提高,並在推理和長尾泛化方面有質的改進。總的來說,在固定推理成本的情況下,BLT顯示出比基於標記化的模型更好的擴展性,同時增加補丁和模型大小。
大型語言模型(LLMs)展現出卓越的生成能力,但常常受到幻覺的困擾。檢索增強生成(RAG)通過整合外部知識提供了一個有效的解決方案,但現有方法仍然面臨幾個限制:單獨檢索器的額外部署成本、從檢索的文本片段中獲取冗餘輸入標記,以及檢索和生成的聯合優化不足。為了應對這些問題,我們提出了RetroLLM,這是一個統一的框架,將檢索和生成整合為一個統一的過程,使LLMs能夠直接從語料庫中生成細粒度證據並進行受限解碼。此外,為了減輕在受限證據生成過程中的虛假修剪,我們引入了(1)層次FM-Index約束,生成受語料庫約束的線索以在生成證據之前識別相關文檔的子集,減少無關的解碼空間;以及(2)前瞻性受限解碼策略,考慮未來序列的相關性以提高證據的準確性。對五個開放領域QA數據集進行的大量實驗表明,RetroLLM在領域內和領域外任務中均表現優異。代碼可在https://github.com/sunnynexus/RetroLLM 上找到。
最近在視覺生成模型方面的進展已經實現高質量的圖像和視頻生成,開啟了多樣的應用。然而,評估這些模型通常需要對數百甚至數千幅圖像或視頻進行抽樣,使評估過程在擴散型模型中變得計算密集,因為這些模型的抽樣速度本質上較慢。此外,現有的評估方法依賴於僵化的流程,忽略了特定用戶需求,提供缺乏清晰解釋的數值結果。相比之下,人類可以通過觀察少量樣本快速形成對模型能力的印象。為了模仿這一點,我們提出了評估代理框架,該框架採用類似人類的策略,實現高效、動態、多輪評估,每輪僅使用少量樣本,同時提供詳細的、針對用戶需求的分析。它具有四個主要優勢:1)高效性,2)可根據不同用戶需求進行提示的評估,3)提供超出單一數值分數的可解釋性,4)在各種模型和工具之間實現可擴展性。實驗表明,評估代理可以將評估時間縮短到傳統方法的10%,同時提供可比較的結果。評估代理框架已完全開源,以推動視覺生成模型及其高效評估的研究。
隨著擴散模型的發展,影像編輯在逆向和指示兩種方法中有了顯著進步。然而,目前的逆向方法在進行大幅度修改(例如添加或移除物件)時遇到困難,這是由於逆向噪音的結構化特性,阻礙了實質性的變更。與此同時,指示式方法通常限制用戶進行黑盒操作,限制了直接互動以指定編輯區域和強度。為了解決這些限制,我們提出了BrushEdit,一種新型的基於修補的指示引導影像編輯範式,利用多模態大語言模型(MLLMs)和影像修補模型實現自主、用戶友好和互動式的自由形式指示編輯。具體而言,我們設計了一個系統,通過在代理協作框架中集成MLLMs和雙分支影像修補模型,實現自由形式指示編輯,以執行編輯類別分類、主要物件識別、遮罩獲取和編輯區域修補。大量實驗表明,我們的框架有效地結合了MLLMs和修補模型,在包括遮罩區域保留和編輯效果一致性在內的七個指標上實現了卓越的性能。
指令調整廣泛應用於發揮大型語言模型的完整潛力。值得注意的是,複雜且多樣化的指令具有重要意義,因為它們可以有效地使模型與各種下游任務保持一致。然而,目前構建大規模指令的方法主要偏好強大的模型,如GPT-4或具有超過 700 億參數的模型,這是基於這樣一種經驗假設:這樣更大的語言模型(LLMs)本質上具有增強的能力。在本研究中,我們質疑這種普遍的假設,並深入探討在指令演進的背景下,較小語言模型(SLMs)的潛力。通過對指令演進的三種情境進行廣泛實驗,我們發現較小語言模型(SLMs)可以比LLMs合成更有效的指令。進一步分析表明,在指令演進過程中,SLMs擁有更廣泛的輸出空間,從而產生更複雜和多樣化的變體。我們還觀察到現有的指標未能專注於指令的影響。因此,我們提出指令複雜感知 IFD(IC-IFD),它在原始 IFD 分數中引入指令複雜度,以更準確地評估指令數據的有效性。我們的原始碼可在以下鏈接找到:https://github.com/HypherX/Evolution-Analysis {https://github.com/HypherX/Evolution-Analysis}
在保留角色和物件身份(ID)的前提下自動對黑白影像序列進行著色是一項複雜的任務,市場對此有著顯著需求,例如在卡通或漫畫系列的著色中。儘管使用大規模生成模型(如擴散模型)在視覺著色方面取得了進展,但在可控性和身份一致性方面仍存在挑戰,使得目前的解決方案不適用於工業應用。為了應對這一問題,我們提出了ColorFlow,這是一個針對工業應用中影像序列著色的三階段擴散框架。與現有方法需要進行基於身份的微調或明確的身份嵌入提取不同,我們提出了一個新穎的堅固且通用的檢索增強著色流水線,用於對具有相關色彩參考的影像進行著色。我們的流水線還具有雙分支設計:一個分支用於色彩身份提取,另一個用於著色,充分利用擴散模型的優勢。我們利用擴散模型中的自我注意機制進行強大的上下文學習和色彩身份匹配。為了評估我們的模型,我們引入了ColorFlow-Bench,這是一個用於基於參考的著色的全面基準。結果顯示,ColorFlow在多個指標上優於現有模型,為連續影像著色設定了新的標準,並有可能造福藝術行業。我們在我們的項目頁面上發布了我們的代碼和模型:https://zhuang2002.github.io/ColorFlow/。
我們介紹了因果擴散(Causal Diffusion)作為擴散模型的自回歸(AR)對應。這是一種友好於離散和連續模態的下一個標記預測框架,與現有的像LLaMA和GPT的下一個標記預測模型兼容。雖然最近的研究嘗試將擴散與AR模型結合,但我們表明,將順序分解引入擴散模型可以顯著提高其性能,並實現在AR和擴散生成模式之間的平滑過渡。因此,我們提出了CausalFusion - 一種僅解碼器的變壓器,它在順序標記和擴散噪聲水平之間雙重分解數據,並在ImageNet生成基準測試中取得了最先進的結果,同時享有生成任意數量標記進行上下文推理的AR優勢。我們進一步通過聯合圖像生成和字幕模型展示了CausalFusion的多模態能力,展示了CausalFusion在零樣本上下文圖像操作方面的能力。我們希望這項工作能為社區提供在離散和連續數據上訓練多模態模型的新視角。
指示遵循是語言模型的基本能力,要求模型能夠識別指示中甚至最微妙的要求,並準確地在輸出中反映這些要求。這種能力非常適合並經常被偏好學習所優化。然而,現有方法在創建偏好對時常直接從模型中採樣多個獨立的回應。這種做法可能引入與是否準確遵循指示無關的內容變化(例如,關於相同語義的不同表達),干擾了教導模型識別導致改善指示遵循的關鍵差異的目標。基於此,我們介紹了SPaR,一個自我對弈框架,將樹搜索自我完善整合在一起,以產生沒有干擾的有效且可比較的偏好對。通過自我對弈,一個LLM使用樹搜索策略來根據指示來完善其先前的回應,同時最小化不必要的變化。我們的實驗表明,經過SPaR引導的三次迭代訓練的LLaMA3-8B模型,在IFEval基準測試中超越了GPT-4-Turbo,同時沒有失去一般能力。此外,SPaR展示了有望的可擴展性和可轉移性,極大地增強了像GLM-4-9B和LLaMA3-70B這樣的模型。我們還確定了樹搜索中的推理擴展如何影響模型性能。我們的代碼和數據公開在https://github.com/thu-coai/SPaR。
本文探討一個具挑戰性的問題:如何能夠從單張任意圖像高效地創建高質量、廣泛範圍的3D場景?現有方法面臨諸多限制,例如需要多視圖數據、耗時的場景優化、背景視覺質量低以及未見區域的重建失真。我們提出了一個新穎的流程來克服這些限制。具體來說,我們引入了一個大規模重建模型,該模型使用來自視頻擴散模型的潛在特徵以前向方式預測場景的3D高斯分佈。視頻擴散模型旨在精確按照指定的相機軌跡創建視頻,使其能夠生成包含多視圖信息並保持3D一致性的壓縮視頻潛在特徵。我們通過漸進式訓練策略訓練3D重建模型,使其能夠在視頻潛在空間上運作,實現高質量、廣泛範圍和通用的3D場景高效生成。通過在各種數據集上進行廣泛評估,我們展示了我們的模型在單視圖3D場景生成方面明顯優於現有方法,特別是對於域外圖像。我們首次證明了可以有效地基於擴散模型的潛在空間構建3D重建模型,實現高效的3D場景生成。
在計算機視覺、圖形學和機器人技術中,估算視覺數據的物理特性是一項至關重要的任務,支撐著擴增實境、物理模擬和機器人抓取等應用。然而,由於物理特性估算中固有的歧義性,這一領域仍未得到充分探索。為應對這些挑戰,我們引入了 GaussianProperty,一個無需訓練的框架,將材料的物理特性分配給 3D 高斯分布。具體而言,我們將 SAM 的分割能力與 GPT-4V(ision) 的識別能力相結合,形成一個針對 2D 圖像的全局-局部物理特性推理模塊。然後,我們使用投票策略將多視角 2D 圖像中的物理特性投影到 3D 高斯分布中。我們展示了帶有物理特性標註的 3D 高斯分布使得應用於基於物理的動態模擬和機器人抓取成為可能。對於基於物理的動態模擬,我們利用材料點法(MPM)進行逼真的動態模擬。對於機器人抓取,我們制定了一種抓取力預測策略,根據估算的物理特性來估計對象抓取所需的安全力範圍。對材料分割、基於物理的動態模擬和機器人抓取進行的大量實驗驗證了我們提出方法的有效性,凸顯了它在從視覺數據中理解物理特性方面的關鍵作用。在 https://Gaussian-Property.github.io{此https URL} 上提供了在線演示、代碼、更多案例和標註數據集。
從影像中捕捉幾何和材質信息仍然是計算機視覺和圖形學中的一個基本挑戰。傳統基於優化的方法通常需要數小時的計算時間,從密集的多視圖輸入中重建幾何、材質特性和環境照明,同時仍然面臨著照明和材料之間固有的模糊性。另一方面,基於學習的方法利用現有的3D對象數據集中豐富的材質先驗,但在保持多視圖一致性方面面臨挑戰。在本文中,我們介紹了IDArb,這是一個基於擴散的模型,旨在在不同照明條件下對任意數量的影像執行內在分解。我們的方法實現了對表面法線和材質特性的準確且多視圖一致的估計。這是通過一個新穎的跨視圖、跨域注意模塊和一種照明增強、視圖自適應的訓練策略實現的。此外,我們介紹了ARB-Objaverse,這是一個提供大規模多視圖內在數據和在不同照明條件下渲染的新數據集,支持強大的訓練。大量實驗表明,IDArb在質量和量化方面均優於最先進的方法。此外,我們的方法促進了一系列下游任務,包括單圖像燈光重繪、光度立體和3D重建,突顯了其在逼真的3D內容創作中的廣泛應用。
影片臉部交換在各種應用中越來越受歡迎,然而現有方法主要集中在靜態圖像,對於影片臉部交換存在著時間一致性和複雜情境的困難。本文提出了第一個專為影片臉部交換設計的擴散式框架。我們的方法引入了一個新穎的影像-影片混合訓練框架,充分利用豐富的靜態圖像數據和時間序列影片,解決了僅使用影片訓練的固有限制。該框架結合了特別設計的擴散模型和 VidFaceVAE,有效處理兩種類型數據,以更好地保持生成影片的時間一致性。為了進一步解開身份和姿勢特徵,我們建立了屬性-身份解纏三元組(AIDT)數據集,其中每個三元組包含三張臉部圖像,其中兩張圖像共享相同的姿勢,另外兩張共享相同的身份。通過全面的遮擋增強,該數據集還提高了對遮擋的魯棒性。此外,我們將三維重建技術集成為網絡的輸入條件,以應對大範圍的姿勢變化。大量實驗表明,我們的框架在身份保留、時間一致性和視覺質量方面相比現有方法表現出優越性,同時需要較少的推理步驟。我們的方法有效地減輕了影片臉部交換中的關鍵挑戰,包括時間閃爍、身份保留以及對遮擋和姿勢變化的魯棒性。
大型語言模型(LLMs)在各種自然語言處理任務中展現出卓越的表現。然而,由於其巨大的尺寸對計算需求和推理速度造成了相當大的挑戰,主要是由於其二次複雜度。在這項工作中,我們已經確定了一個關鍵模式:某些看似毫無意義的特殊標記(即分隔符)與語義上有意義的標記相比,在注意力分數中佔有不成比例的地位。這一觀察結果表明,這些分隔符標記之間的段落信息可以有效地壓縮到分隔符標記本身,而不會有顯著的信息損失。在這一洞察的指導下,我們引入了SepLLM,一個即插即用的框架,通過壓縮這些段落並消除冗餘標記來加速推理。此外,我們實現了用於訓練加速的高效內核。跨訓練免費、從頭開始訓練和後訓練設置的實驗結果展示了SepLLM的有效性。值得注意的是,在使用Llama-3-8B骨幹的情況下,SepLLM在GSM8K-CoT基準測試中實現了超過50%的KV緩存減少,同時保持可比擬的性能。此外,在流式處理設置中,SepLLM有效地處理多達4百萬個或更多標記的序列,同時保持一致的語言建模能力。
儘管髮型表現出獨特的個性,現有的頭像生成方法卻無法模擬實用的髮型,因為其使用了一般或交錯的表示法。我們提出了StrandHead,一種新穎的文本轉3D頭像生成方法,能夠生成具有線條表示的解耦合3D髮型。在不使用3D數據進行監督的情況下,我們展示了可以通過提煉2D生成擴散模型從提示中生成逼真的髮絲。為此,我們提出了一系列可靠的先驗知識,包括形狀初始化、幾何基元和統計髮型特徵,從而實現穩定的優化和與文本對齊的性能。大量實驗表明,StrandHead實現了生成的3D頭像和髮型的最新現實性和多樣性。生成的3D髮型也可以輕鬆應用於虛幻引擎進行物理模擬和其他應用。代碼將可在https://xiaokunsun.github.io/StrandHead.github.io 上獲得。
大型語言模型(LLMs)標誌著自然語言處理(NLP)的重要轉變,已在文本生成、翻譯和特定領域推理方面取得了進展。像 GPT-4 這樣的封閉源模型,依賴專有數據集和龐大的計算資源,目前在性能方面處於領先地位。然而,它們因「黑盒」特性和限制可訪問性而受到批評,這種限制阻礙了可重現性和公平的人工智能發展。相比之下,像 LLaMA 和 BLOOM 這樣的開源倡議通過社區驅動的開發和計算效率來優先考慮民主化。這些模型在語言多樣性和特定領域應用方面顯著縮小了性能差距,同時為全球研究人員和開發人員提供了可訪問的工具。值得注意的是,這兩種範式都依賴於基礎架構創新,例如 Vaswani 等人(2017)提出的 Transformer 框架。封閉源模型在規模化方面表現出色,而開源模型則適應了少數語言和領域的實際應用。像低秩適應(LoRA)和指令調整數據集這樣的技術使開源模型在資源有限的情況下實現了競爭性結果。確實,封閉源和開源方法之間的張力凸顯了人工智能中透明度與專有控制的更廣泛辯論。道德考量進一步突顯了這種分歧。封閉源系統限制了外部審查,而開源模型促進了可重現性和協作,但缺乏標準化的審計文檔框架來減輕偏見。整合兩種範式優勢的混合方法可能塑造了LLM創新的未來,確保可訪問性、競爭性技術性能和道德部署。
傳統的基於強化學習的機器人控制方法通常是特定任務的,無法泛化到不同環境或未見過的物體和指令。視覺語言模型(VLMs)展示了強大的場景理解和規劃能力,但缺乏生成針對特定機器人實體的可操作策略的能力。為了解決這個問題,出現了視覺-語言-動作(VLA)模型,但它們在長時間跨度的空間推理和基於任務的規劃方面面臨挑戰。在這項工作中,我們提出了具有基於鏈式思維和前瞻空間推理的具體多模態行動模型,Emma-X。Emma-X利用我們基於BridgeV2構建的階層實體數據集,其中包含60,000個機器人操作軌跡,自動註釋了基於任務的推理和空間引導。此外,我們引入了一種基於夾爪狀態和運動軌跡的軌跡分割策略,可以幫助減輕在基於地面子任務推理生成中的幻覺。實驗結果表明,Emma-X在需要空間推理的真實世界機器人任務中,相對競爭基線實現了卓越的性能。
為了使基礎模型更有效率和有效,我們的想法是結合序列轉換和狀態轉換。首先,我們證明了在狀態空間對偶算法中使用旋轉位置嵌入的可行性,這將混合二次因果自注意力和狀態空間對偶的困惑度降低了超過4%,以確保結合序列轉換統一位置編碼。其次,我們提出了動態遮罩注意力,它在更具挑戰性的多查詢聯想回憶任務中保持100%的準確性,相較於二次因果自注意力和狀態空間對偶,提高了超過150%,以確保結合序列轉換有選擇性地過濾相關信息。第三,我們設計了跨領域專家混合,使得擁有超過1024位專家的專家檢索計算速度比專家混合快8到10倍,以確保結合狀態轉換快速檢索混合。最後,我們總結了這些矩陣算法,可以構建基礎模型:奇妙矩陣,它可以成為流行模型架構的競爭對手。
隨著對沉浸式擴增實境(AR)/虛擬實境(VR)應用和空間智能的需求不斷增加,生成高質量的場景級和360度全景視頻的需求日益迫切。然而,大多數視頻擴散模型受到有限的解析度和寬高比的限制,這限制了它們對場景級動態內容合成的適用性。在這項工作中,我們提出了DynamicScaler,通過實現空間可伸縮和全景動態場景合成,以解決這些挑戰,保持跨任意大小全景場景的一致性。具體來說,我們引入了一種Offset Shifting Denoiser,通過一個無縫旋轉的窗口,便利地、同步地和一致地對全景動態場景進行去噪,通過具有固定解析度的擴散模型,確保無縫的邊界過渡和整個全景空間的一致性,以滿足不同解析度和寬高比的需求。此外,我們採用全局運動引導機制,以確保局部細節的保真度和全局運動的連續性。大量實驗證明,我們的方法在全景場景級視頻生成中實現了卓越的內容和運動質量,為沉浸式動態場景創建提供了一種無需訓練、高效且可擴展的解決方案,無論輸出視頻的解析度如何,都能保持恆定的VRAM消耗。我們的項目頁面位於https://dynamic-scaler.pages.dev/。
從野外單眼視頻中合成新奇視角具有挑戰性,這是由於場景動態和缺乏多視角線索。為了應對這一問題,我們提出了SplineGS,這是一個不依賴COLMAP的動態3D高斯飛灰(3DGS)框架,可從單眼視頻中進行高質量重建和快速渲染。其核心是一種新穎的運動自適應樣條(MAS)方法,該方法使用具有少量控制點的三次Hermite樣條來表示連續的動態3D高斯軌跡。對於MAS,我們引入了一種運動自適應控制點修剪(MACP)方法,以模擬每個動態3D高斯在不同運動中的變形,逐步修剪控制點同時保持動態建模完整性。此外,我們提出了一種聯合優化策略,用於相機參數估計和3D高斯屬性,利用光度和幾何一致性。這消除了對從運動中獲取結構的預處理的需求,增強了SplineGS在現實條件下的韌性。實驗表明,SplineGS在從單眼視頻中的動態場景中合成新視角的質量方面明顯優於最先進的方法,實現了數千倍更快的渲染速度。
重新利用預先訓練的擴散模型已被證實對於多對多視覺合成(NVS)是有效的。然而,這些方法大多僅限於單個物體;將這些方法直接應用於組合式多物體場景時,結果較差,特別是在新視角下物體放置不正確,形狀和外觀不一致。如何增強並系統評估這些模型的跨視圖一致性仍未被充分探討。為了解決這個問題,我們提出 MOVIS 來增強多物體 NVS 的擴散模型的結構感知,包括模型輸入、輔助任務和訓練策略。首先,我們將結構感知特徵(包括深度和物體遮罩)注入去噪 U-Net 中,以增強模型對物體實例及其空間關係的理解。其次,我們引入一個需要模型同時預測新視角物體遮罩的輔助任務,進一步提高模型在區分和放置物體方面的能力。最後,我們對擴散採樣過程進行深入分析,並在訓練期間精心設計了一個結構引導的時間步採樣調度器,平衡了全局物體放置和細緻細節恢復的學習。為了系統評估合成圖像的合理性,我們提出評估跨視圖一致性和新視角物體放置,並與現有的圖像級 NVS 指標一起。對具有挑戰性的合成和逼真數據集進行了大量實驗,證明我們的方法具有強大的泛化能力,並產生一致的新視角合成,突顯了其引導未來 3D 感知多物體 NVS 任務的潛力。
強化學習(RL)演算法的目標是在利用當前最佳策略的同時,探索可能導致更高獎勵的新選項。大多數常見的RL演算法使用無指導的探索,即選擇隨機動作序列。探索也可以使用內在獎勵來指導,例如好奇心或模型的認知不確定性。然而,有效平衡任務和內在獎勵是具有挑戰性的,並且通常取決於任務本身。在這項工作中,我們介紹了一個名為MaxInfoRL的框架,用於平衡內在和外在探索。MaxInfoRL通過最大化內在獎勵,如關於基礎任務的信息增益,來引導探索朝向具信息量的轉換。當結合玻爾茨曼探索時,這種方法自然地在價值函數的最大化和熵在狀態、獎勵和動作之間的平衡中進行交易。我們展示了我們的方法在簡化的多臂機器人設置中實現了次線性後悔。然後,我們將這個通用公式應用於各種連續狀態-動作空間的離線模型無關RL方法,從而產生了在艱難的探索問題和複雜情境(如視覺控制任務)中實現卓越性能的新算法。
為了充分利用最近在模仿學習方面的進展,以用於移動操作,需要收集大量人類引導的示範。本文提出了一種開源設計,用於廉價、堅固且靈活的移動操作器,可支援任意臂,從而實現廣泛的現實世界家庭移動操作任務。我們的設計關鍵在於使用動力輪轉輪,使移動底座完全全向運動,能夠獨立且同時控制所有平面自由度。這個特點使底座更靈活,簡化了許多移動操作任務,消除了非全向底座中產生複雜且耗時運動的運動學限制。我們為機器人配備了直觀的手機遠端操作界面,以便進行模仿學習的數據輕鬆獲取。在我們的實驗中,我們使用這個界面來收集數據,並展示所學習的策略能夠成功執行各種常見家庭移動操作任務。
儘管多模式大型語言模型(MLLMs)在一般任務上表現出色,但在需要理解圖表、解釋符號和進行複雜推理的自動幾何問題解決(GPS)方面卻遇到困難。這種限制源於它們在自然圖像和文本上的預訓練,以及在問題解決過程中缺乏自動驗證。此外,目前的幾何專家受限於其特定任務設計,使它們對於更廣泛的幾何問題效果較差。為此,我們提出了GeoX,一個專注於幾何理解和推理任務的多模式大型模型。考慮到幾何圖表-符號和自然圖像-文本之間的顯著差異,我們引入了單模式預訓練,以開發圖表編碼器和符號解碼器,增強對幾何圖像和文集的理解。此外,我們引入了幾何-語言對齊,一種有效的預訓練範式,彌合了單模式幾何專家之間的模態差距。我們提出了一種生成器-取樣器Transformer(GS-Former),用於生成具有辨識性的查詢並從不均勻分佈的幾何信號中消除無信息的表示。最後,GeoX從視覺指導調整中受益,使其能夠將幾何圖像和問題作為輸入並生成可驗證的解決方案。實驗表明,GeoX在公認的基準測試中(如GeoQA、UniGeo、Geometry3K和PGPS9k)表現優於一般模型和幾何專家。
我們提出了WHISPER-GPT:一種用於語音和音樂的生成式大型語言模型(LLM),使我們能夠同時使用連續音頻表示和離散標記,作為單一架構的一部分。近來出現了大量生成式音頻、語音和音樂模型,這些模型利用從神經壓縮算法(例如ENCODEC)衍生的離散音頻標記。然而,這種方法的一個主要缺點是處理上下文長度。如果要考慮下一個標記的所有音頻內容在各種頻率上的情況,對於高保真生成式架構來說,這個上下文會急劇增加。通過結合連續音頻表示(如頻譜圖)和離散聲學標記,我們保留了兩者的優點:在單個標記中獲得特定時間點的所有所需音頻信息,同時允許LLM預測未來的標記,以實現採樣和其他離散空間提供的好處。我們展示了我們的架構如何改善對語音和音樂下一個標記預測的困惑度和負對數似然分數,相較於基於標記的LLM。
垂直聯邦學習(VFL)旨在實現深度學習模型的協作訓練,同時保護隱私。然而,VFL 過程仍存在容易受惡意攻擊影響的組件。在我們的研究中,我們考慮特徵重建攻擊,這是一種常見的針對輸入數據泄露的風險。我們在理論上主張,沒有對數據的先驗分佈知識,特徵重建攻擊是無法成功的。因此,我們展示即使是簡單的模型架構變換也能顯著影響 VFL 過程中對輸入數據的保護。通過實驗結果證實這些發現,我們展示基於 MLP 模型的抗衡對抗最先進的特徵重建攻擊。
最近擴散模型的進步革新了影像生成,但也帶來了濫用的風險,例如複製藝術品或生成深偽。現有的影像保護方法雖然有效,卻難以平衡保護效能、隱形性和延遲,因此限制了實際應用。我們引入了擾動預訓練以降低延遲,並提出了一種混合擾動方法,動態適應輸入影像以最小化性能降低。我們的新型訓練策略在多個 VAE 特徵空間中計算保護損失,而推斷時的自適應目標保護增強了魯棒性和隱形性。實驗顯示出具有改善隱形性和大幅減少推斷時間的相當保護性能。代碼和演示可在https://webtoon.github.io/impasto找到。
自然語言處理(NLP)技術的快速發展,如調校指令的大型語言模型(LLMs),促使現代評估協議的發展,包括人類和機器反饋。我們介紹Evalica,一個開源工具包,有助於創建可靠且可重現的模型排行榜。本文介紹了其設計,評估了其性能,並通過其Web界面、命令行界面和Python API展示了其可用性。
最近在機器人基礎模型方面的進展已經使得能夠適應各種任務的通用政策的開發成為可能。儘管這些模型展現出令人印象深刻的靈活性,但它們的表現在很大程度上取決於訓練數據的質量。在這項工作中,我們提出了強化學習精煉通用政策(RLDG)的方法,利用強化學習來生成高質量的訓練數據,以微調通用政策。通過在精確操作任務(如連接器插入和組裝)上進行大量真實世界實驗,我們展示了使用RL生成的數據訓練的通用政策在一致優於使用人類示範訓練的情況下,成功率高出多達40%,同時對新任務具有更好的泛化能力。我們還提供了詳細的分析,揭示了這種性能增益來自於優化的動作分佈和改進的狀態覆蓋。我們的結果表明,將特定任務的RL與通用政策精煉相結合,提供了一種有前途的方法,用於開發更具能力和效率的機器人操作系統,既保持了基礎模型的靈活性,又實現了專業控制器的性能。視頻和代碼可在我們的項目網站https://generalist-distillation.github.io 找到。