每日精選AI研究論文及翻譯
我們介紹了 Magicoder,這是一系列完全開源(包括程式碼、權重和資料)的大型語言模型(LLMs),專門用於程式碼,能夠在不超過 70 億參數的情況下,顯著縮小與頂尖程式碼模型之間的差距。Magicoder 模型是通過使用 OSS-Instruct 這一新方法,在 75K 個合成指令資料上進行訓練的,該方法利用開源程式碼片段為語言模型提供高質量的指令資料。我們的主要動機是通過為語言模型提供豐富的開源參考資料,來減輕語言模型生成的合成資料固有的偏見,以生成更多元化、真實和可控的資料。OSS-Instruct 與其他資料生成方法(如 Evol-Instruct)的正交性進一步使我們能夠構建增強型的 MagicoderS。Magicoder 和 MagicoderS 在各種編碼基準測試中都明顯優於同等或甚至更大尺寸的最先進程式碼模型,包括 Python 文本轉程式碼生成、多語言編碼和數據科學程式完成。值得注意的是,基於 CodeLlama 的 MagicoderS-CL-7B 甚至在 HumanEval+(pass@1 中為 66.5 對 65.9)上超越了知名的 ChatGPT。總的來說,OSS-Instruct 開啟了一個利用豐富的開源參考資料進行低偏見和高質量指令調整的新方向。
文字到視頻擴散模型已顯著推動視頻生成的進步。 然而,定制這些模型以生成具有定制動作的視頻存在著重大挑戰。 具體而言,它們在(a) 準確復制目標視頻中的運動和(b) 創建多樣視覺變化方面遇到困難。 例如,將靜態圖像定制方法直接擴展到視頻往往導致外觀和運動數據的複雜交織。 為了應對這一挑戰,我們在這裡提出了視頻運動定制(VMC)框架,這是一種新穎的一次性調整方法,旨在調整視頻擴散模型中的時間注意層。 我們的方法引入了一種新穎的運動提煉目標,使用連續幀之間的殘差向量作為運動參考。 然後,擴散過程在圖像空間中保留低頻運動軌跡,同時減輕高頻運動無關噪音。 我們通過在不同現實世界運動和情境中對最先進的視頻生成模型進行驗證,證實了我們的方法。 我們的代碼、數據和項目演示可在以下網址找到:https://video-motion-customization.github.io
大型語言模型(LLMs)的對齊調整過程通常包括通過監督微調(SFT)進行指導學習,以及通過從人類反饋中進行強化學習進行偏好調整(RLHF)。最近的一項研究,LIMA(Zhou等,2023年),表明僅使用1K個示例進行SFT也可以實現顯著的對齊性能,這表明對齊調整的影響可能是“表面的”。這引發了對對齊調整如何確切地轉換基礎LLM的問題。 我們通過檢查基礎LLMs和它們的對齊版本之間的標記分佈變化來分析對齊調整的效果。我們的研究發現,基礎LLMs和它們的對齊調整版本在大多數標記位置上的解碼表現幾乎相同。大多數分佈變化發生在風格標記上。這些直接證據強烈支持LIMA提出的“表面對齊假設”。 基於這些發現,我們重新思考LLMs的對齊,提出研究問題:在沒有SFT或RLHF的情況下,我們可以多有效地對齊基礎LLMs嗎?為了解決這個問題,我們引入了一種簡單的、無需調整的對齊方法,即URIAL。URIAL僅通過基礎LLMs的上下文學習(ICL)實現有效的對齊,只需要三個恆定的風格示例和一個系統提示。我們對一組多樣化的示例進行了細緻且可解釋的評估,名為JUST-EVAL-INSTRUCT。結果表明,使用URIAL的基礎LLMs可以達到甚至超越通過SFT或SFT+RLHF對齊的LLMs的性能。我們表明,通過策略提示和ICL,無需調整和基於調整的對齊方法之間的差距可以得到顯著縮小。我們對對齊調整的表面性質的研究結果以及URIAL的結果表明,對對未來LLM研究至關重要的是進行更深入的分析和理論理解。
本研究探討保持身份的圖像合成,這是圖像生成中一個引人入勝的任務,旨在在保持主題身份的同時添加個性化、風格化的元素。傳統方法,如文本反轉和夢幻攝影亭,在定製圖像創建方面取得了進展,但存在顯著缺點。這些包括需要大量資源和時間進行微調,以及需要多個參考圖像。為了克服這些挑戰,我們的研究引入了一種新的保持身份合成方法,特別關注人類圖像。我們的模型利用直接前饋機制,避免了對精細調整的需求,從而促進了快速高效的圖像生成。我們創新的核心是混合引導框架,結合了風格化圖像、面部圖像和文本提示,以引導圖像生成過程。這種獨特組合使我們的模型能夠產生各種應用,如藝術肖像和身份混合圖像。我們的實驗結果,包括定性和定量評估,顯示了我們的方法在效率和高度保留主題身份能力方面優於現有基準模型和先前作品,具有卓越的優勢。
最近,擴散模型在影像合成領域引起了前所未有的關注,這歸因於其卓越的生成能力。儘管這些模型強大,但往往需要大量計算成本,主要是由於順序去噪過程和龐大的模型尺寸所致。傳統的擴散模型壓縮方法通常涉及大量的重新訓練,帶來成本和可行性方面的挑戰。在本文中,我們介紹了DeepCache,這是一種全新的無需訓練的範式,從模型架構的角度加速擴散模型。DeepCache利用擴散模型順序去噪步驟中觀察到的固有時間冗餘,對相鄰去噪階段之間的特徵進行緩存和檢索,從而減少冗餘計算。利用U-Net的特性,我們以一種非常便宜的方式重複使用高級特徵,同時更新低級特徵。這種創新策略進而實現了對Stable Diffusion v1.5的2.3倍加速,僅使CLIP Score下降0.05,以及對LDM-4-G的4.1倍加速,使ImageNet上的FID略微下降0.22。我們的實驗還表明,DeepCache優於現有的剪枝和蒸餾方法,這些方法需要重新訓練,並且與當前的採樣技術相容。此外,我們發現,在相同的吞吐量下,DeepCache有效地實現了與DDIM或PLMS相當甚至稍微改善的結果。代碼可在https://github.com/horseee/DeepCache找到。
目前基於擴散的影片編輯主要專注於結構保留編輯,透過利用各種密集對應來確保時間一致性和動作對齊。然而,這些方法在目標編輯涉及形狀變化時通常效果不佳。為了進行具有形狀變化的影片編輯,我們在這項工作中探索了定制的影片主題交換,旨在將源影片中的主題替換為具有獨特身份和可能不同形狀的目標主題。與依賴密集對應的先前方法相反,我們引入了VideoSwap框架,該框架利用語義點對應,靈感來自我們的觀察,即只有少量語義點是必要的,以對齊主題的運動軌跡並修改其形狀。我們還引入了各種用戶點交互(例如,刪除點和拖動點)來應對各種語義點對應。廣泛的實驗證明,在各種現實世界影片中,我們的VideoSwap框架實現了最先進的影片主題交換結果。
我們提出了一種方法,可以有效地為「Segment Anything Model」(SAM)增加生成區域標題的能力。SAM在對任何區域進行分割時表現出強大的泛化能力,同時又簡稱為語義理解。通過引入輕量級的基於查詢的特徵混合器,我們將區域特定的特徵與語言模型的嵌入空間對齊,以供後續標題生成使用。由於可訓練參數的數量較少(通常在數千萬的量級),這樣做成本更低,計算量更小,內存使用更少,通信帶寬更小,從而實現了快速且可擴展的訓練。為了解決區域標題數據稀缺的問題,我們建議首先在對象檢測和分割任務上對我們的模型進行預訓練。我們將這一步驟稱為弱監督預訓練,因為預訓練數據僅包含類別名稱,而不是完整的句子描述。弱監督預訓練使我們能夠利用許多公開可用的對象檢測和分割數據集。我們進行了大量實驗,以展示我們方法的優越性並驗證每個設計選擇。這項工作是擴大區域標題數據的一個起點,並為探索將SAM與區域語義相結合的有效方法提供了啟示。項目頁面以及相關代碼可通過以下網址訪問:https://xk-huang.github.io/segment-caption-anything/。
儘管最近在文本轉視頻生成方面取得了進展,現有研究通常忽略了合成視頻中只有空間內容而沒有時間運動是由文本控制的問題。為應對這一挑戰,本研究提出了一個名為 LivePhoto 的實用系統,允許用戶通過文本描述將感興趣的圖像進行動畫化。我們首先建立了一個強大的基準線,幫助一個訓練良好的文本轉圖像生成器(即 Stable Diffusion)將圖像作為進一步的輸入。然後,我們為改進後的生成器配備了一個用於時間建模的運動模塊,並提出了一個精心設計的訓練流程,以更好地關聯文本和運動。特別是,考慮到(1)文本只能粗略描述運動(例如,不考慮移動速度)和(2)文本可能包含內容和運動描述,我們引入了一個運動強度估計模塊以及一個文本重新加權模塊,以減少文本到運動映射的模糊性。實證證據表明,我們的方法能夠將與運動相關的文本指令很好地解碼為視頻,例如動作、攝像機運動,甚至從虛空中召喚新內容(例如,將水倒入空杯中)。有趣的是,由於所提出的強度學習機制,我們的系統為用戶提供了一個額外的控制信號(即運動強度),除了文本外,用於視頻定制。
從人類反饋中學習的強化學習(RLHF)已成為將大型語言模型(LLMs)與人類偏好對齊的主要範式。通常,RLHF 包括從人類反饋中學習獎勵模型的初始步驟,這些反饋通常表達為預先訓練的LLM生成的文本對之間的偏好。隨後,通過強化學習算法對LLM的策略進行微調,以最大化獎勵模型。然而,當前獎勵模型的固有局限性在於無法完全表達人類偏好的豐富性以及其對抽樣分佈的依賴性。 在本研究中,我們介紹了一種使用成對人類反饋進行LLMs微調的替代流程。我們的方法包括首先學習一個偏好模型,該模型在給定提示的情況下條件於兩個輸入,然後追求一個策略,該策略一貫地生成優於任何競爭策略生成的回應,從而定義了該偏好模型的納什均衡。我們將此方法稱為從人類反饋中學習的納什(NLHF)。 在表格式策略表示的背景下,我們提出了一種基於鏡像下降原則的新穎算法解決方案,稱為Nash-MD。該算法生成一系列策略,最後一次迭代收斂到正則化的納什均衡。此外,我們探索了策略的參數表示形式,並引入了用於深度學習架構的梯度下降算法。為了展示我們方法的有效性,我們提出了涉及對LLM進行文本摘要任務微調的實驗結果。我們認為NLHF為偏好學習和策略優化提供了一個引人注目的途徑,有望推動LLMs與人類偏好對齊領域的發展。
兩組影像有何不同?識別集合級別的差異對於理解模型行為和分析數據集至關重要,然而手動篩選成千上萬張影像是不切實際的。為了幫助這一發現過程,我們探索了自動描述兩組影像之間差異的任務,我們稱之為集合差異標題生成。該任務接收影像集合 D_A 和 D_B,並輸出一個更常在 D_A 上為真的描述。我們概述了一種兩階段方法,首先從影像集合中提出候選差異描述,然後通過檢查它們能多好地區分這兩組影像集合來重新排名這些候選描述。我們引入了 VisDiff,首先對影像進行標題生成,促使語言模型提出候選描述,然後使用 CLIP 重新排名這些描述。為了評估 VisDiff,我們收集了一個帶有 187 對影像集合和真實差異描述的數據集 VisDiffBench。我們將 VisDiff 應用於各種領域,如比較數據集(例如 ImageNet vs. ImageNetV2)、比較分類模型(例如零樣本 CLIP vs. 監督式 ResNet)、總結模型失敗模式(監督式 ResNet)、表徵生成模型之間的差異(例如 StableDiffusionV1 和 V2),以及發現是什麼使影像令人難忘。通過使用 VisDiff,我們能夠發現數據集和模型中有趣且以前未知的差異,展示了它在揭示微妙見解方面的實用性。
擁有強大的表達能力和高樣本質量的擴散模型已經在各個領域實現了許多新的應用和用例。對於樣本生成,這些模型依賴於一個通過迭代去噪生成圖像的神經網絡。然而,去噪網絡架構的作用尚未得到很好的研究,大多數努力都依賴於卷積殘差 U-Net。在本文中,我們研究了視覺Transformer在基於擴散的生成學習中的有效性。具體而言,我們提出了一個新模型,稱為Diffusion Vision Transformers(DiffiT),它由具有U形編碼器和解碼器的混合分層架構組成。我們引入了一個新穎的時間依賴自注意力模塊,使得注意力層能夠以高效的方式在去噪過程的不同階段適應其行為。我們還介紹了潛在的DiffiT,它由具有所提出的自注意力層的Transformer模型組成,用於高分辨率圖像生成。我們的結果表明,DiffiT 在生成高保真度圖像方面效果驚人,並在各種有條件和無條件的合成任務上實現了最新技術(SOTA)基準。在潛在空間中,DiffiT 在 ImageNet-256 數據集上實現了新的 SOTA FID 分數為 1.73。存儲庫:https://github.com/NVlabs/DiffiT
基於大型語言模型(LLM)的Listwise重新排序器是零樣本最先進的技術。然而,目前在這個方向上的作品都依賴於GPT模型,這使得科學可重現性存在單一失敗點。此外,這引發了一個擔憂,即目前的研究結果僅適用於GPT模型,而不適用於LLM整體。在這項工作中,我們解除了這個先決條件,首次建立了在不依賴於GPT的情況下具有效果的Listwise重新排序器。我們的段落檢索實驗表明,我們最佳的Listwise重新排序器超越了基於GPT-3.5的Listwise重新排序器13%,並實現了相當於基於GPT-4所建立的97%效果。我們的結果還表明,現有的訓練數據集,這些數據集明確為點對點排序而構建,不足以建立這樣的Listwise重新排序器。相反,需要高質量的Listwise排序數據,這是必不可少的,需要進一步努力建立人工標註的Listwise數據資源。
隨著最近大型多模型(LMMs)的重大進展,人們越來越重視它們在視覺對話中的基礎能力。儘管近期已有努力使LMMs支持基礎能力,但它們的基礎和對話能力通常是分開的,當要求進行基礎時,其對話表現會急劇下降。問題在於缺乏一個用於基礎視覺對話(GVC)的數據集。現有的基礎數據集僅包含簡短的標題。為了解決這個問題,我們創建了GVC數據,可以結合基礎和對話能力。為了更好地評估GVC的能力,我們引入了一個名為Grounding-Bench的基準。此外,我們提出了一種模型設計,可以通過將分割模型與語言模型相連接,支持GVC和各種類型的視覺提示。實驗結果表明,我們的模型在Grounding-Bench上優於其他LMMs。此外,我們的模型在經典基礎基準上(如RefCOCO/+/g和Flickr30K Entities)取得了競爭性表現。我們的代碼將在https://github.com/UX-Decoder/LLaVA-Grounding 上發布。
我們提出了一種新方法,稱為GPS-Gaussian,用於以實時方式合成角色的新視圖。所提出的方法在稀疏視圖相機設置下實現了2K分辨率渲染。與原始的高斯飛灰或神經隱式渲染方法不同,這些方法需要對每個主題進行優化,我們引入了在源視圖上定義的高斯參數圖,並直接回歸高斯飛灰屬性,以便即時合成新視圖,而無需進行任何微調或優化。為此,我們在大量人體掃描數據上訓練我們的高斯參數回歸模塊,同時還有一個深度估計模塊,將2D參數圖提升到3D空間。所提出的框架是完全可微的,對幾個數據集進行的實驗表明,我們的方法優於最先進的方法,同時實現了超越的渲染速度。
我們提出了一種將物體識別定位為下一個標記預測的方法。這個想法是應用一個語言解碼器,通過自回歸地從圖像嵌入中預測文本標記以形成標籤。為了將這個預測過程基於自回歸,我們定制了一個非因果關係的注意力遮罩給解碼器,包含兩個關鍵特徵:將來自不同標籤的標記建模為獨立,並將圖像標記視為前綴。這種遮罩機制激發了一種高效的方法 - 一次性取樣 - 同時並行取樣多個標記的標記,並在推斷期間按其概率對生成的標籤進行排名。為了進一步提高效率,我們提出了一種簡單的策略,通過簡單地丟棄預訓練語言模型的中間塊來構建一個緊湊的解碼器。這種方法產生了一個與完整模型性能匹配的解碼器,同時更加高效。代碼可在 https://github.com/kaiyuyue/nxtp 找到。
文字轉視頻生成已顯示出令人鼓舞的結果。然而,僅接受自然語言作為輸入,用戶通常難以提供詳細信息以精確控制模型的輸出。在這項工作中,我們提出了細粒度可控視頻生成(FACTOR)以實現詳細控制。具體而言,FACTOR旨在控制物體的外觀和上下文,包括它們的位置和類別,與文本提示一起。為了實現詳細控制,我們提出了一個統一的框架,將控制信號聯合注入現有的文字轉視頻模型中。我們的模型包括聯合編碼器和自適應交叉注意力層。通過優化編碼器和插入層,我們使模型適應生成與文本提示和細粒度控制對齊的視頻。與依賴於密集控制信號(如邊緣地圖)的現有方法相比,我們提供了一個更直觀和用戶友好的界面,以允許對象級的細粒度控制。我們的方法實現了對象外觀的可控性,無需微調,從而減少了用戶的每個主題優化工作。對標準基準數據集和用戶提供的輸入進行了大量實驗,驗證了我們的模型在可控性指標上相比競爭基線實現了70%的改善。
我們介紹生成式無限詞彙轉換器(GIVT),它生成具有實值項目的向量序列,而不是來自有限詞彙的離散標記。為此,我們對僅解碼器變壓器提出了兩個令人驚訝的簡單修改:1)在輸入端,我們將有限詞彙查找表替換為輸入向量的線性投影;以及2)在輸出端,我們將對數預測(通常映射為分類分佈)替換為多變量高斯混合模型的參數。受到VQ-GAN和MaskGIT的圖像生成範式的啟發,其中變壓器用於建模VQ-VAE的離散潛在序列,我們使用GIVT來建模VAE的未量化實值潛在序列。當將GIVT應用於具有迭代遮罩建模的類別條件圖像生成時,我們展示了與MaskGIT競爭力的結果,而在用於因果建模時,我們的方法優於VQ-GAN和MaskGIT。最後,當將我們的方法應用於基於VAE變體的UViM框架的全景分割和深度估計時,我們獲得了具有競爭力的結果。
從野外視頻中進行新視角合成是困難的,因為存在著場景動態和視差不足等挑戰。儘管現有方法在使用隱式神經輻射場方面取得了令人期待的結果,但訓練和渲染速度較慢。本文重新審視明確的視頻表示,以高效地從單眼視頻中合成高質量的新視角。我們將靜態和動態視頻內容分開處理。具體來說,我們使用擴展的基於平面的場景表示來構建全局靜態場景模型,以合成具有時間一致性的新視頻。我們的基於平面的場景表示使用球面調和和位移地圖進行擴充,以捕捉視角相依效應並模擬非平面複雜表面幾何。我們選擇將動態內容表示為每幀點雲以提高效率。儘管這種表示容易出現不一致性,但由於運動,輕微的時間不一致性在感知上被掩蓋。我們開發了一種快速估算這種混合視頻表示並實時渲染新視角的方法。我們的實驗表明,我們的方法可以從野外視頻中合成高質量的新視角,其質量與最先進的方法相當,同時訓練速度快100倍,實現實時渲染。
大規模文本到圖像(T2I)模型在創意領域迅速備受矚目,能夠從文本提示中生成引人入勝的視覺輸出。然而,控制這些模型以確保一致的風格仍然具有挑戰性,現有方法需要進行微調和手動干預以區分內容和風格。本文介紹了一種名為StyleAligned的新技術,旨在在一系列生成的圖像之間建立風格對齊。通過在擴散過程中採用最小的“注意力共享”,我們的方法在T2I模型中保持圖像之間的風格一致性。這種方法允許使用參考風格通過簡單的反演操作創建風格一致的圖像。我們的方法在不同風格和文本提示上的評估表明,具有高質量的合成和忠實度,突顯了其在實現各種輸入下一致風格方面的有效性。
傳統的3D內容創作工具賦予使用者直接控制場景的幾何形狀、外觀、動作和攝影機路徑,讓他們將想像力具現化。然而,創建計算機生成的視頻是一個繁瑣的手動過程,可以通過新興的文本到視頻擴散模型來自動化。儘管視頻擴散模型具有巨大潛力,但很難控制,阻礙了使用者應用自己的創造力,而不是增強它。為了應對這一挑戰,我們提出了一種新穎的方法,將動態3D網格的可控性與新興擴散模型的表現力和可編輯性相結合。為此,我們的方法將動畫化的低保真度渲染網格作為輸入,並將從動態網格獲得的地面真實對應信息注入到預先訓練的文本到圖像生成模型的各個階段,以輸出高質量和時間上一致的幀。我們在各種示例上展示了我們的方法,其中運動可以通過對綁定資產進行動畫製作或更改攝影機路徑來獲得。
在文本轉3D生成領域中,通過分數蒸餾取樣(SDS)利用2D擴散模型經常會導致問題,例如模糊外觀和多面幾何,主要是由於SDS損失的固有噪音特性。我們的分析確定了這些挑戰的核心,即2D擴散過程中噪音水平、擴散網絡的架構以及3D模型表示之間的交互作用。為了克服這些限制,我們提出了StableDreamer,這是一種融合了三個進展的方法。首先,受InstructNeRF2NeRF的啟發,我們正式確定了SDS生成先驗和簡單監督L2重建損失的等價性。這一發現提供了一個新的工具來調試SDS,我們用它來展示時間退火噪音水平對減少多面幾何的影響。其次,我們的分析表明,儘管圖像空間擴散有助於幾何精度,但潛在空間擴散對生動的色彩呈現至關重要。基於這一觀察結果,StableDreamer引入了一種有效結合這些方面的兩階段訓練策略,從而產生高保真度的3D模型。第三,我們採用各向異性3D高斯表示法,取代神經輻射場(NeRFs),以提高整體質量,減少訓練過程中的內存使用量,加快渲染速度,並更好地捕捉半透明物體。StableDreamer減少了多面幾何,生成了精細細節,並穩定收斂。
在輻射場中進行互動式3D分割是一項具吸引力的任務,因為它在3D場景理解和操作中的重要性。然而,現有方法在實現精細、多粒度分割或應對大量計算開銷方面面臨挑戰,從而抑制了實時互動。本文介紹了Segment Any 3D GAussians(SAGA),這是一種新穎的3D互動式分割方法,它將一個2D分割基礎模型與3D高斯飛灰(3DGS)巧妙地結合在一起,後者是輻射場的一項最新突破。SAGA通過精心設計的對比訓練,將分割基礎模型生成的多粒度2D分割結果有效地嵌入到3D高斯點特徵中。對現有基準進行的評估顯示,SAGA能夠與最先進的方法實現競爭性表現。此外,SAGA實現了多粒度分割,並支持各種提示,包括點、塗鴉和2D遮罩。值得注意的是,SAGA可以在毫秒內完成3D分割,與之前的最先進方法相比實現了近1000倍的加速。項目頁面位於https://jumpat.github.io/SAGA。
大型語言模型(LLMs)在使用“思維鏈”(CoT)提示逐步解答問題時,能夠更準確且易於解釋。通過監督微調,即對某些可調參數進行梯度上升,以最大化來自標記訓練集的正確答案的平均對數概率,可以提高LLMs在特定任務上的性能。將CoT與監督微調天真地結合需要監督不僅是正確答案,還有導致這些答案的詳細原因;這些原因手工製作成本昂貴。相反,我們提出了一種微調策略,試圖最大化使用CoT提示生成正確答案的邊際對數概率,近似平均所有可能的原因。核心挑戰是從條件於正確答案的原因後驗中進行抽樣;我們使用受自學推理者(STaR)、記憶式覺醒-睡眠、馬爾可夫分數爬升和持續對比散度啟發的簡單馬爾可夫鏈蒙特卡羅(MCMC)期望最大化(EM)算法來解決這個問題。該算法還包括一種新穎的控制變量技術,隨著模型的改進,將我們的梯度估計的變異推向零。將我們的技術應用於GSM8K和BIG-Bench Hard中的任務時,我們發現這種MCMC-EM微調技術通常比STaR或使用或不使用CoT的提示微調更能提高模型對留存示例的準確性。
多模式大型語言模型(MLLMs)在2D圖像文本理解和圖像生成方面表現出色,但它們對於3D世界的理解明顯不足,限制了3D語言理解和生成的進展。為了解決這個問題,我們引入了GPT4Point,這是一個創新的突破性點語言多模式模型,專門設計用於在MLLM框架內統一的3D物體理解和生成。GPT4Point作為一個強大的3D MLLM,可以無縫執行各種點文本參考任務,如點雲字幕和問答。此外,GPT4Point還具備先進的可控3D生成能力,可以通過低質量的點文本特徵獲得高質量的結果,同時保持幾何形狀和顏色。為了支持對3D物體文本對的廣泛需求,我們開發了Pyramid-XL,一個點語言數據集標註引擎。它在Objaverse-XL數據集上構建了一個包含100萬個對象的各種文本粒度級別的大規模數據庫,這對於訓練GPT4Point至關重要。我們提出了一個全面的基準來評估3D點語言理解能力。在廣泛的評估中,GPT4Point展示了出色的理解和生成性能。
大型語言模型(LLMs)如 GPT-4 的卓越能力部分來自於後訓練過程,例如從人類反饋中進行的強化學習(RLHF),其中涉及人類偏好編碼在獎勵模型中。然而,這些獎勵模型(RMs)通常缺乏直接了解偏好標註是基於何種原因或原則的知識。在本研究中,我們確定指導獎勵模型更好地與人類偏好保持一致的原則,然後開發了一個公理框架來生成豐富多樣的偏好信號以支持這些原則。我們使用這些公理信號來訓練一個模型,用於對長篇問題的答案進行評分。我們的方法產生了一個偏好模型,僅約有 2.2 億個參數,比 GPT-4 更常與黃金人類標註的偏好標籤一致。這項工作的貢獻包括:訓練一個獨立的偏好模型,可以在相同尺度上對人類和LLM生成的答案進行評分;開發一個生成訓練數據對以符合特定原則的公理框架;並顯示少量公理信號可以幫助小型模型在偏好評分方面優於GPT-4。我們在 huggingface 上釋出我們的模型:https://huggingface.co/corbyrosset/axiomatic_preference_model
在多模態輸入上進行訓練可以增強語言模型的能力。在這裡,我們探討這種訓練方式是否能提高這些系統的質量和效率。我們專注於文本-音訊,並引入了Whisbert,受到FLAVA singh_flava_2022文本-圖像方法的啟發。根據Babylm warstadt2023papers的指南,我們在一個數據集上對Whisbert進行預訓練,該數據集僅包含1億單詞及其對應的語音,來自People's Speech數據集galvez_peoples_2021的詞對齊版本。為了評估多模態的影響,我們比較了僅在文本上訓練和同時在音訊和文本上訓練的模型版本。我們發現,雖然Whisbert在多模態遮罩建模上表現良好,在大多數基準任務中超越了Babylm基線,但它在優化其複雜目標並超越僅文本的Whisbert基線方面仍然存在困難。
神經輻射場(NeRFs)擅長逼真地渲染靜態場景。然而,在普及設備上渲染動態、長時間輻射場仍然具有挑戰性,這是由於數據存儲和計算限制所致。本文介紹了VideoRF,這是第一種在移動平台上實現動態輻射場的實時流式傳輸和渲染的方法。其核心是序列化的二維特徵圖像流,代表了全部的四維輻射場。我們引入了一個量身定制的訓練方案,直接應用於這個二維領域,以施加特徵圖像流的時間和空間冗餘性。通過利用冗餘性,我們展示了特徵圖像流可以被二維視頻編解碼器有效壓縮,這使我們能夠利用視頻硬件加速器實現實時解碼。另一方面,基於特徵圖像流,我們提出了一種新穎的VideoRF渲染流程,其中包括專門的空間映射,以有效地查詢輻射特性。搭配延遲着色模型,VideoRF由於其高效性,在移動設備上具有實時渲染的能力。我們開發了一個實時互動播放器,實現了動態場景的在線流式傳輸和渲染,為從桌面到手機等各種設備提供了無縫且身臨其境的自由視點體驗。
我們提出了一種方法,使用文本到圖像模型來生成跨多個圖像尺度一致的內容,實現對場景的極端語義縮放,例如從森林的廣角景觀到昆蟲坐在樹枝上的特寫。我們通過聯合多尺度擴散抽樣方法實現這一點,該方法鼓勵在不同尺度上保持一致性,同時保留每個單獨抽樣過程的完整性。由於每個生成的尺度受不同的文本提示引導,我們的方法使得比傳統的超分辨率方法更深層次的縮放成為可能,後者可能在極不同的尺度上難以創建新的語境結構。我們在圖像超分辨率和外部繪製的替代技術方面在質量上將我們的方法與其他技術進行了比較,並表明我們的方法在生成一致的多尺度內容方面最為有效。
最近,Segment Anything Model(SAM)展示了零樣本分割的卓越能力,而NeRF(神經輻射場)則作為一種超越新視角合成的各種3D問題的方法而變得流行。儘管已經有初步嘗試將這兩種方法納入3D分割中,但它們面臨著在複雜情境中準確且一致地分割物體的挑戰。本文介紹了高質量的Segment Anything for NeRF(SANeRF-HQ),以實現對給定場景中任何物體的高質量3D分割。SANeRF-HQ利用SAM進行開放世界物體分割,並由用戶提供的提示進行引導,同時利用NeRF從不同視角聚合信息。為了克服上述挑戰,我們採用密度場和RGB相似性來增強聚合過程中分割邊界的準確性。著重於分割準確性,我們在多個NeRF數據集上對我們的方法進行定量評估,其中提供了高質量的地面真實數據或手動標註。SANeRF-HQ在NeRF物體分割方面顯示出顯著的質量改進,為物體定位提供了更高的靈活性,並實現了在多個視角下更一致的物體分割。更多信息可在https://lyclyc52.github.io/SANeRF-HQ/找到。
本文增強了圖像-GPT(iGPT),這是一項開創性的工作,引入自回歸預訓練以預測視覺表示學習中下一個像素。我們做了兩個簡單但重要的改變。首先,我們將預測目標從原始像素轉移到語義標記,從而實現對視覺內容的更高層次理解。其次,我們通過指導模型預測不僅是下一個標記,還包括可見標記,來補充自回歸建模。當語義標記由經過區分性訓練的模型(如CLIP)編碼時,這種流程尤其有效。我們將這種新方法稱為D-iGPT。大量實驗展示了D-iGPT作為視覺表示學習的強大學習者:D-iGPT的一個顯著成就是其在ImageNet-1K數據集上的引人注目表現——通過在公開可用數據集上訓練,D-iGPT在使用普通的ViT-Large模型時達到了89.5\%的top-1準確率。該模型還在下游任務上表現出良好的泛化能力,對分布外樣本具有強健性。代碼可在https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}找到。
本文針對自適應來源驅動的3D場景編輯任務,提出了一個名為CustomNeRF的模型,該模型將文本描述或參考圖像統一作為編輯提示。然而,為了獲得符合編輯提示的期望編輯結果並不簡單,因為存在兩個重要挑戰,包括僅準確編輯前景區域以及在單視角參考圖像的情況下實現多視角一致性。為應對第一個挑戰,我們提出了一種名為Local-Global Iterative Editing(LGIE)的訓練方案,該方案在前景區域編輯和完整圖像編輯之間交替進行,旨在實現僅針對前景的操作,同時保留背景。對於第二個挑戰,我們還設計了一種基於類別的正則化方法,利用生成模型內的類別先驗來減輕基於圖像的編輯中不同視角之間的不一致問題。大量實驗表明,我們的CustomNeRF在各種真實場景下均能產生精確的編輯結果,無論是在文本驅動還是圖像驅動的情況下。
尋找加速深度運動障礙者文本輸入方式的方法一直是研究的重要領域。縮小輔助和替代溝通(AAC)設備的速度差距,如眼動追蹤鍵盤,對於提升這些個體的生活質量至關重要。自然語言神經網絡的最新進展為重新思考增強AAC使用者文本輸入的策略和用戶界面提供了新機遇。本文介紹了SpeakFaster,包括大型語言模型(LLMs)和一個共同設計的用戶界面,以高度縮寫的形式進行文本輸入,比傳統預測鍵盤在離線模擬中節省了57%的運動動作。一項由19名非AAC參與者手動在移動設備上輸入的初步研究展示了與離線模擬相符的運動節省,同時對整體打字速度產生了相對較小的影響。在兩名患有肌萎縮性脊髓側索硬化症(ALS)的眼神注視打字使用者身上進行的實驗室和現場測試顯示,由於從上下文感知的LLMs實現的短語和單詞預測大幅節省了昂貴的按鍵次數,文本輸入速度比傳統基準快29-60%。這些發現為進一步探索為運動障礙用戶大幅加速文本溝通提供了堅實基礎,並展示了將LLMs應用於基於文本的用戶界面的方向。
大型語言模型(LLMs)由於其日益準確的回應和連貫的推理能力,在實際應用中引起了巨大興趣。由於它們作為黑盒子,使用複雜的推理過程處理輸入,對於為LLMs生成的內容提供可擴展且忠實的解釋的需求將不可避免地增長。過去十年在神經網絡模型的可解釋性方面已經取得了重大進展。其中,事後可解釋性方法,特別是Shapley值,已被證明對解釋深度學習模型非常有效。然而,在將Shapley值擴展至LLMs時存在著重大挑戰,特別是當處理包含數千個標記和自回歸生成的輸出序列的長輸入內容時。此外,如何有效利用生成的解釋來提高LLMs的性能通常是不清楚的。在本文中,我們介紹了TextGenSHAP,一種高效的事後解釋方法,結合了LM特定技術。我們展示了這對於與傳統Shapley值計算相比,速度顯著提高,將用於標記級別解釋的處理時間從幾小時減少到幾分鐘,用於文檔級別解釋的時間僅為幾秒。此外,我們展示了實時Shapley值如何應用於兩個重要場景,通過定位重要詞語和句子來提供更好的理解長文檔問答;並通過增強所選段落的準確性,從而改進現有文檔檢索系統,最終提高最終回應的準確性。