每日精選AI研究論文及翻譯
現代推薦系統利用大規模檢索模型,包含兩個階段:首先訓練雙編碼器模型,將查詢和候選項目嵌入到相同的空間中,然後進行近似最近鄰(ANN)搜索,以根據查詢的嵌入選擇頂級候選項目。在本文中,我們提出一種新的單階段範式:一種生成式檢索模型,它自回歸地解碼目標候選項目的標識符號。為了做到這一點,我們不是為每個項目分配隨機生成的原子ID,而是生成語義ID:每個項目的一個具有語義意義的代碼詞元組,作為其唯一標識符號。我們使用一種稱為RQ-VAE的階層方法來生成這些代碼詞。一旦我們為所有項目生成了語義ID,就會訓練一個基於Transformer的序列到序列模型,來預測下一個項目的語義ID。由於這個模型以自回歸方式直接預測識別下一個項目的代碼詞元組,因此可以被視為一種生成式檢索模型。我們展示了在這種新範式下訓練的推薦系統改善了在Amazon數據集上當前最先進模型所取得的結果。此外,我們證明,序列到序列模型結合階層語義ID提供更好的泛化性,從而改善了冷啟動項目的推薦檢索。
深度神經網絡在監督式學習任務中展現出卓越的性能,但需要大量標記數據。自監督學習提供了一種替代範式,使模型能夠從數據中學習而無需明確標籤。信息理論在理解和優化深度神經網絡方面發揮了重要作用。具體來說,信息瓶頸原則已被應用於優化在監督式設置中壓縮和相關信息保存之間的折衷。然而,在自監督學習中的最佳信息目標仍不清楚。本文從信息理論的角度回顧了各種自監督學習方法,並提出了一個統一的框架,形式化了自監督信息理論學習問題。我們將現有研究整合到一個連貫的框架中,檢視最近的自監督方法,並確定研究機會和挑戰。此外,我們討論了信息理論量的實證測量及其估計器。本文全面評估了信息理論、自監督學習和深度神經網絡之間的交集。
最近的大型語言模型,如ChatGPT和GPT-4,引起了廣泛關注,因為它們能夠對人類輸入生成高質量的回應。儘管對ChatGPT和GPT-4在通用文本語料庫上進行了廣泛測試,展示了它們令人印象深刻的能力,但尚未進行針對金融語料庫的研究。在本研究中,我們旨在填補這一空白,通過在零樣本或少樣本設置下檢驗ChatGPT和GPT-4作為典型金融文本分析問題求解器的潛力。具體來說,我們評估它們在五個不同的金融文本數據集上的四個代表性任務上的能力。初步研究顯示,ChatGPT和GPT-4在金融命名實體識別(NER)和情感分析等任務上遇到困難,需要領域特定知識,但在數值推理任務上表現出色。我們報告了目前版本的ChatGPT和GPT-4的優勢和局限性,將它們與最先進的微調模型以及預訓練的領域特定生成模型進行比較。我們的實驗提供了定性研究,希望通過這些研究幫助理解現有模型的能力並促進進一步的改進。
在一系列最近的研究中,已經顯示物件中心架構在視覺領域的無監督場景分解中是合適的。受到這些方法的啟發,我們提出了AudioSlots,這是一種以插槽為中心的生成模型,用於音頻領域的盲源分離。AudioSlots 使用置換等變編碼器和解碼器網絡構建。基於 Transformer 架構的編碼器網絡學習將混合音頻頻譜圖映射到一組無序的獨立源嵌入。空間廣播解碼器網絡學習從源嵌入生成源頻譜圖。我們使用一個置換不變損失函數以端對端的方式訓練模型。我們在 Libri2Mix 語音分離上的結果證明了這種方法具有潛力。我們詳細討論了我們方法的結果和限制,並進一步概述了克服這些限制和未來工作方向的潛在方法。
在擴散模型在圖像生成上取得顯著成功後,最近的研究也展示了它們在無監督方式下解決多個反問題的印象深刻能力,通過根據條件輸入適當限制取樣過程。受此啟發,本文提出了第一種利用擴散模型作為高度準確的三維臉部BRDF復原的先驗方法,僅從單張圖像開始。我們首先利用高質量的臉部反射UV數據集(漫反射和鏡面反照率以及法線),在不同照明設置下渲染以模擬自然RGB紋理,然後在渲染紋理和反射成分的串聯對上訓練無條件擴散模型。在測試時,我們對給定圖像擬合三維可變模型,並在部分UV紋理中展開臉部。通過從擴散模型取樣,同時保留觀察到的紋理部分完整,模型不僅填補了自遮蔽區域,還填補了未知的反射成分,在一個序列的去噪步驟中。與現有方法相比,我們直接從輸入圖像獲取觀察到的紋理,因此,結果更忠實和一致的反射估計。通過一系列定性和定量比較,我們展示了在紋理完成和反射重建任務中的優越性能。
隨著視頻內容的激增,需要高效靈活的基於神經網絡的方法來生成新的視頻內容。本文提出了一種新方法,將零樣本文本到視頻生成與ControlNet結合,以改善這些模型的輸出。我們的方法將多個草圖幀作為輸入,生成與這些幀流動匹配的視頻輸出,建立在文本到視頻零架構的基礎上,並整合ControlNet以實現額外的輸入條件。通過首先在輸入的草圖之間插值幀,然後運行使用新插值幀視頻作為控制技術的文本到視頻零,我們利用了零樣本文本到視頻生成和ControlNet提供的強大控制的優勢。實驗表明,我們的方法在生成高質量和一致性顯著的視頻內容方面表現出色,更準確地符合用戶對視頻中主題運動的意圖。我們提供了一個全面的資源包,包括演示視頻、項目網站、開源GitHub存儲庫和Colab平台,以促進進一步研究和應用我們提出的方法。
為了有效地個性化物理協助,機器人必須學習用戶偏好,並將其應用於未來情境。在這項研究中,我們探討了使用機器人個性化家庭清潔,讓機器人可以通過收拾物品來整理房間。一個關鍵挑戰是確定每個物品應該放在哪個位置,因為人們的偏好可能會因個人口味或文化背景而大不相同。例如,一個人可能喜歡把襯衫放在抽屜裡,而另一個人可能更喜歡放在架子上。我們的目標是建立可以從與特定人互動的先前例子中學習此類偏好的系統。我們展示了機器人如何結合基於語言的規劃和感知,以及大型語言模型(LLMs)的少量示例摘要能力,來推斷出廣泛適用於未來互動的用戶偏好。這種方法實現了快速適應,在我們的基準數據集中對未見物品達到了91.2%的準確率。我們還在一個名為TidyBot的現實世界移動機械手上展示了我們的方法,該機器人在真實測試情境中成功整理了85.0%的物品。
近年來,大型預訓練語言模型(LLMs)已展示出能夠遵循指示並從少量範例執行新任務的能力。通過在上下文中使用這些範例來對LLM進行參數化,可以擴大它們的能力,而成本遠低於微調。我們延伸這一思路並提出了一種方法,通過將LLM嵌入到算法或程序中,進一步擴展其能力。為了展示這種方法的好處,我們提出了一個證據支持的問答示例。通過更具算法性的方法,我們在不進行任何微調的情況下,相對於思維基線獲得了6.4%的改進。此外,我們從這個角度突出了最近的工作,並討論了與標準方法相比的優缺點。
由於體積渲染所需的樣本數眾多,優化和渲染神經輻射場具有高度的計算成本。最近的研究已包括替代取樣方法,以加速其方法,然而,這些方法通常不是工作的重點。在本文中,我們研究並比較多種取樣方法,並展示改進的取樣通常適用於統一的透射率估算器概念下的各種 NeRF 變體。為了促進未來的實驗,我們開發了 NerfAcc,一個 Python 工具箱,提供靈活的 API,以將先進的取樣方法納入與 NeRF 相關的方法中。我們通過展示其靈活性,顯示它可以將幾種最近的 NeRF 方法的訓練時間減少 1.5 到 20 倍,並對現有代碼庫進行最小修改。此外,高度定制的 NeRF,如 Instant-NGP,可以使用 NerfAcc 在本機 PyTorch 中實現。
程式碼執行是程式語言語義學的基本層面,反映了程式碼的確切行為。然而,大多數用於程式碼智能的預訓練模型忽略了執行蹤跡,僅依賴於原始碼和語法結構。本文探討了預訓練模型在理解和執行程式碼方面的表現。我們開發了一種基於變異的資料擴增技術,創建了一個大規模且現實的Python資料集和程式碼執行任務,挑戰了諸如Codex等現有模型。接著,我們提出了CodeExecutor,一個利用程式碼執行預訓練和課程學習來增強其語義理解能力的Transformer模型。我們對CodeExecutor進行了程式碼執行的評估,展示了其有希望的表現和局限性。我們還展示了它對於程式碼智能任務(如零-shot程式碼對程式碼搜索和文本對程式碼生成)的潛在好處。我們的分析提供了關於預訓練模型在程式碼執行方面的學習和泛化能力的見解。
網頁一直是語言和視覺語言任務的豐富資源。然而,只有網頁的部分內容被保留:圖像標題對、長文本文章,或原始 HTML,從未同時存在於一個地方。因此,網頁任務受到了較少關注,並且結構化的圖像-文本數據被低估使用。為了研究多模態網頁理解,我們介紹了維基百科網頁 2M(WikiWeb2M)套件;這是第一個保留網頁中所有圖像、文本和結構數據的套件。WikiWeb2M可用於頁面描述生成、章節摘要和上下文圖像標題等任務。