每日精選AI研究論文及翻譯
對齊問題的複雜性源於現有方法的不穩定性。研究人員不斷創造各種技巧來解決這個缺點。例如,在人類反饋強化學習(RLHF)技術中的語言模型對齊的基本方法中,除了獎勵最大化外,還會最小化可訓練策略與SFT策略之間的Kullback-Leibler散度。這個添加防止了模型過度擬合於獎勵模型(RM)並生成對於RM來說屬於非領域的文本。直接偏好優化(DPO)方法重新制定了RLHF的優化任務,並消除了獎勵模型,同時默默地保持了策略接近SFT策略的要求。在我們的論文中,我們認為DPO方法中的這種隱含限制導致次優結果。我們提出了一種名為信任區域DPO(TR-DPO)的新方法,該方法在訓練過程中更新參考策略。通過這種直接的更新,我們展示了TR-DPO相對於DPO在Anthropic HH和TLDR數據集上的有效性。我們展示了TR-DPO在GPT-4的自動評估中比DPO表現優異,最高可達19%。我們提出的新對齊方法使我們能夠同時改善模型在多個參數上的質量,如連貫性、正確性、細節水平、幫助性和無害性。
Transformers 的二次複雜度和弱長度外推限制了它們在長序列上擴展的能力,儘管存在線性注意力和狀態空間模型等次二次解決方案,但在預訓練效率和下游任務準確性方面,它們在實踐中表現不佳於 Transformers。我們引入了Megalodon,這是一種用於高效序列建模的神經架構,具有無限上下文長度。Megalodon 繼承了 Mega 的架構(帶有閘控注意力的指數移動平均),並進一步引入多個技術組件來提高其能力和穩定性,包括複雜指數移動平均(CEMA)、時間步長規範化層、規範化注意機制和帶有雙跳殘差配置的預規範。在與 Llama2 的對照比較中,Megalodon 在擁有 70 億參數和 2 萬億訓練標記的規模上比 Transformer 實現了更好的效率。Megalodon 達到了 1.70 的訓練損失,在 Llama2-7B(1.75)和 13B(1.67)之間。代碼:https://github.com/XuezheMax/megalodon
儘管Transformer已經革新了深度學習,但其二次注意力複雜度阻礙了處理無限長輸入的能力。我們提出了反饋注意力記憶(FAM),這是一種新穎的Transformer架構,利用反饋循環使網絡能夠關注自己的潛在表示。這種設計促進了Transformer內部工作記憶的出現,使其能夠處理無限長序列。TransformerFAM不需要額外的權重,可以無縫集成到預訓練模型中。我們的實驗表明,TransformerFAM在各種模型大小(1B、8B和24B)上顯著提高了Transformer在長內容任務上的性能。這些結果展示了賦予大型語言模型(LLMs)處理無限長序列的潛力。
創建高質量且互動性強的虛擬環境,如遊戲和模擬器,通常涉及複雜且昂貴的手動建模過程。在本文中,我們提出了Video2Game,一種新方法,可以將真實世界場景的影片自動轉換為逼真且互動性強的遊戲環境。我們系統的核心包括三個主要組件:(i) 一個神經輻射場(NeRF)模塊,有效捕捉場景的幾何形狀和視覺外觀;(ii) 一個網格模塊,從NeRF中提煉知識以加快渲染速度;以及(iii) 一個物理模塊,模擬物體之間的交互作用和物理動態。通過遵循精心設計的流程,可以構建一個可互動且可操作的真實世界數位副本。我們在室內和大型戶外場景上對我們的系統進行基準測試。我們展示了我們不僅可以實時生成高度逼真的渲染,還可以在其上構建互動遊戲。
有一种观念认为,精通压缩将导致智能。 最近,语言建模被证明等同于压缩, 这为大型语言模型(LLMs)的成功提供了令人信服的理由: 更先进的语言模型的发展基本上是增强了压缩,从而促进了智能。尽管存在这样引人入胜的讨论,但很少有实证证据表明压缩与智能之间的相互作用。在这项工作中,我们在LLMs的背景下研究它们之间的关系,将LLMs视为数据压缩器。鉴于“智能”这个抽象概念,我们采用下游基准测试分数的平均值作为替代指标,具体针对与知识和常识相关的智能、编码以及数学推理。在12个基准测试中,我们的研究汇集了来自不同组织的30个公共LLMs。值得注意的是,我们发现LLMs的智能——通过平均基准测试分数反映——几乎与它们压缩外部文本语料库的能力呈线性相关。这些结果提供了具体证据,支持了优越的压缩表明更高智能的信念。此外,我们的发现表明,作为从原始文本语料库中导出的无监督度量,压缩效率作为一个可靠的评估指标,与模型能力呈线性关联。我们开源了我们的压缩数据集以及我们的数据收集管道,以便未来的研究人员能够适当评估压缩。
ControlNets被廣泛應用於圖像生成中添加空間控制,並搭配不同條件,如深度圖、Canny邊緣和人體姿勢。然而,在利用預訓練圖像ControlNets進行受控視頻生成時存在幾個挑戰。首先,由於特徵空間不匹配,預訓練的ControlNet無法直接插入新的骨幹模型,而為新骨幹訓練ControlNets的成本很高。其次,不同幀的ControlNet特徵可能無法有效處理時間一致性。為應對這些挑戰,我們引入了Ctrl-Adapter,這是一個高效且多功能的框架,可通過適應預訓練的ControlNets(並改進視頻的時間對齊)為任何圖像/視頻擴散模型添加多樣控制。Ctrl-Adapter提供多種功能,包括圖像控制、視頻控制、具有稀疏幀的視頻控制、多條件控制、與不同骨幹的兼容性、適應未見控制條件以及視頻編輯。在Ctrl-Adapter中,我們訓練適配器層,將預訓練的ControlNet特徵融合到不同的圖像/視頻擴散模型中,同時保持ControlNets和擴散模型的參數凍結。Ctrl-Adapter包括時間和空間模塊,以有效處理視頻的時間一致性。我們還提出了潛在跳躍和反向時間步長抽樣,以實現強健的適應和稀疏控制。此外,Ctrl-Adapter通過簡單地將ControlNet輸出的(加權)平均值來實現從多種條件進行控制。憑藉多樣的圖像/視頻擴散骨幹(SDXL、Hotshot-XL、I2VGen-XL和SVD),Ctrl-Adapter與圖像控制的ControlNet相匹配,並在視頻控制方面優於所有基準線(在DAVIS 2017數據集上實現了SOTA準確性),並且計算成本顯著降低(少於10個GPU小時)。
本研究介紹了HQ-Edit,一個包含約200,000個編輯的高質量指令型圖像編輯數據集。與先前依賴屬性指導或人類反饋建立數據集的方法不同,我們設計了一個可擴展的數據收集流程,利用先進的基礎模型,即GPT-4V和DALL-E 3。為確保其高質量,首先在線收集多樣化的示例,擴展後,用於創建包含詳細文本提示的輸入和輸出圖像的高質量雙聯圖,通過後處理確保精確對齊。此外,我們提出了兩個評估指標,即對齊和連貫性,以定量評估使用GPT-4V的圖像編輯對的質量。HQ-Edit的高分辨率圖像豐富細節,並配有全面的編輯提示,顯著增強了現有圖像編輯模型的能力。例如,經過微調的InstructPix2Pix可以實現最先進的圖像編輯性能,甚至超越了那些使用人工標註數據進行微調的模型。項目頁面為https://thefllood.github.io/HQEdit_web。
基於其龐大的語言模型骨幹,多模式大型語言模型(MLLMs)的推論速度較慢,這是由於其受到內存帶寬瓶頸的影響,並且生成 token 的過程是自回歸的。本文探討了對於提升 MLLMs 推論效率的應用,具體來說是 LLaVA 7B 模型的推測解碼。我們展示了僅使用語言模型作為 LLaVA 7B 的推測解碼的良好草稿模型,從而避免了從草稿模型中獲取圖像 token 及其相關處理組件的需求。我們在三個不同任務上的實驗表明,使用我們從頭開始訓練的具有 115M 參數的語言模型,推測解碼可以實現高達 2.37 倍的內存限制加速。此外,我們引入了一個包含圖像適配器的緊湊 LLaVA 草稿模型,該模型在圖像字幕生成方面顯示出輕微的性能提升,同時在其他任務中保持可比的結果。
生成式多模態內容在許多內容創作領域中日益普及,因為它有潛力讓藝術家和媒體人員通過快速將其想法具現化來創建預製樣品。從文本提示生成音頻是音樂和電影行業中這些過程的重要方面。許多最近基於擴散的文本轉音頻模型專注於在大量的提示-音頻對數據集上訓練日益複雜的擴散模型。這些模型並不明確關注輸出音頻中與輸入提示相關的概念或事件以及它們的時間順序。我們的假設是專注於這些音頻生成方面如何在有限數據存在的情況下改善音頻生成性能。因此,在這項工作中,我們使用現有的文本轉音頻模型Tango,合成創建了一個偏好數據集,其中每個提示都有一個優勝音頻輸出和一些失敗音頻輸出,供擴散模型學習。理論上,失敗的輸出中某些提示中的概念缺失或順序不正確。我們使用擴散-DPO(直接偏好優化)損失對我們的偏好數據集微調公開可用的Tango文本轉音頻模型,並展示這將在自動和手動評估指標方面比Tango和AudioLDM2帶來改進的音頻輸出。
多模式大型語言模型(MLLMs)在各種多模式任務上展現了令人印象深刻的成果。然而,大多數現有的MLLM並不適合於需要細粒度圖像感知和信息壓縮的以文件為導向的任務。本文介紹了TextHawk,這是一種專門為文件導向任務而設計的MLLM,同時保留了MLLM的一般能力。TextHawk旨在通過設計四個專用組件來探索高效的細粒度感知。首先,提出了一個重新採樣和重新排列(ReSA)模塊,以減少文件文本中的冗余並降低MLLM的計算成本。我們通過提出可擴展位置嵌入(SPEs)來編碼每個局部特徵的位置,從而保留各種圖像尺寸的可擴展性。然後採用了一個查詢提議網絡(QPN)來在不同子圖像之間動態初始化查詢。為了進一步增強MLLM的細粒度視覺感知能力,我們設計了一個多級交叉注意力(MLCA)機制,捕捉文件圖像的層次結構和語義關係。此外,我們通過將多模式文件數據與Gemini Pro豐富,創建了一個針對文件導向任務的新指令調整數據集。我們在一般和文件導向的MLLM基準上進行了廣泛的實驗,並展示了TextHawk優於最先進方法的表現,顯示了其在細粒度文件感知和一般能力方面的有效性和優越性。
神經輻射場(NeRF)是一種從多視角影像進行三維重建的表示法。儘管最近一些工作展示了在擁有擴散先驗的重建 NeRF 上進行編輯取得了初步成功,但它們仍在努力合成完全未覆蓋區域合理幾何的困難。一個主要原因是從擴散模型產生的合成內容具有高度多樣性,這阻礙了輻射場收斂到清晰和確定性幾何。此外,將潛在擴散模型應用於真實數據往往會由於自編碼錯誤導致與圖像條件不一致的紋理偏移。這兩個問題進一步加劇了使用像素距離損失的情況。為了解決這些問題,我們提出通過每個場景的定制來調節擴散模型的隨機性,並通過遮罩對抗訓練來減輕紋理偏移。在分析過程中,我們還發現常用的像素損失和感知損失在 NeRF 修補任務中是有害的。通過嚴格的實驗,我們的框架在各種現實場景上實現了最先進的 NeRF 修補結果。項目頁面:https://hubert0527.github.io/MALD-NeRF
高斯點塗,以其出色的渲染質量和效率而聞名,在3D場景表示中已成為一項傑出的技術。然而,高斯點塗的龐大數據量阻礙了其在現實應用中的實用性。在這裡,我們提出了一種高效的3D場景表示,名為壓縮高斯點塗(CompGS),利用緊湊的高斯基元對3D場景進行忠實建模,並極大地減少了數據大小。為確保高斯基元的緊湊性,我們設計了一種捕捉彼此之間預測關係的混合基元結構。然後,我們利用一小組錨基元進行預測,使大多數基元被封裝為高度緊湊的剩餘形式。此外,我們開發了一種受速率限制的優化方案,以消除這些混合基元中的冗餘,將我們的CompGS引向在比特率消耗和表示效能之間取得最佳平衡的方向。實驗結果顯示,所提出的CompGS明顯優於現有方法,在3D場景表示中實現了卓越的緊湊性,而不影響模型準確性和渲染質量。我們的代碼將在GitHub上發布供進一步研究使用。