每日精選AI研究論文及翻譯
在自然語言處理這個快速發展領域中,推進語言模型(LMs)次二次方架構的前沿至關重要。當前的創新,包括狀態空間模型,最初因在語言建模任務上超越Transformer的表現而受到讚譽。然而,這些模型揭示了在基本的上下文學習能力方面存在的不足 - 這是Transformer傳統上擅長的領域。Based模型作為一種混合解決方案出現,將線性Transformer與受到指數函數泰勒展開啟發的核心結合,並輔以卷積網絡。與Transformer的上下文靈活性相呼應,它成為該領域的一個強勁競爭者。在我們的工作中,我們提出了對Based核心的獨特優雅修改,增強了其在上下文學習能力上的表現,並通過對Pile數據集上的多查詢聯想回想任務和整體語言建模過程的評估來加以證明。
本文探討利用生成式變壓器模型處理長文檔的挑戰。為評估不同方法,我們引入了BABILong,這是一個新的基準測試,旨在評估模型在提取和處理廣泛文本中的分散事實方面的能力。我們的評估包括GPT-4和RAG的基準測試,顯示常見方法僅對長度不超過10^4個元素的序列有效。相反,通過對GPT-2進行微調並使用循環記憶增強,使其能夠處理包含高達10^7個元素的任務。這一成就標誌著一個重大飛躍,因為這是迄今為止任何開放神經網絡模型處理的最長輸入,顯示了對於長序列的處理能力有了顯著的改善。
充分利用使用者長期參與歷史對於個性化內容推薦至關重要。預訓練語言模型(PLMs)在自然語言處理(NLP)中的成功導致它們被用於編碼使用者歷史和候選項目,將內容推薦框架為文本語義匹配任務。然而,現有研究仍在處理非常長的使用者歷史文本和不足的使用者-項目互動方面遇到困難。本文介紹了一個基於內容的推薦框架,名為SPAR,有效應對從長期使用者參與歷史中提取整體使用者興趣的挑戰。它通過利用PLM、多頭注意力層和注意力稀疏機制以會話為基礎的方式編碼使用者歷史來實現這一目標。使用者和項目方面的特徵被充分融合以進行參與預測,同時保持雙方的獨立表示,這對於實際模型部署是高效的。此外,我們通過利用大型語言模型(LLM)從使用者參與歷史中提取全局興趣來增強使用者個人資料。在兩個基準數據集上進行的大量實驗表明,我們的框架優於現有的最先進方法。
大型語言模型(LLMs)已成為自然語言處理研究人員在各種任務中的主要且重要工具。如今,許多研究人員在合成數據生成、任務評估、微調、蒸餾以及其他模型在迴圈中的研究工作流程中使用LLMs。然而,在使用這些模型時會遇到挑戰,這些挑戰源於它們的規模、封閉源代碼性質以及對於這些新興工作流程缺乏標準化工具。這些模型的迅速崛起和這些獨特挑戰對開放科學和使用它們的工作的可重複性產生了立即的負面影響。在本文中,我們介紹了DataDreamer,這是一個開源的Python庫,允許研究人員編寫簡單的代碼來實現強大的LLM工作流程。DataDreamer還幫助研究人員遵循我們提出的最佳實踐,以鼓勵開放科學和可重複性。該庫和文檔可在https://github.com/datadreamer-dev/DataDreamer 上找到。
影片製作越來越受歡迎,然而編輯所需的專業知識和努力常常對初學者構成障礙。本文探討將大型語言模型(LLMs)整合到影片編輯工作流程中,以減少這些障礙。我們的設計理念體現在LAVE中,這是一個提供LLM動力的代理助手和語言增強編輯功能的新穎系統。LAVE自動為用戶的影片生成語言描述,作為啟用LLM處理影片並協助編輯任務的基礎。當用戶提供編輯目標時,代理計劃並執行相關操作以實現目標。此外,LAVE允許用戶通過代理或直接UI操作來編輯影片,提供靈活性並實現對代理操作的手動微調。我們的用戶研究包括從初學者到熟練編輯人員的八名參與者,證明了LAVE的有效性。結果還闡明了用戶對所提出的LLM輔助編輯範式及其對用戶創造力和共同創作感的看法。基於這些發現,我們提出了設計啟示,以指導未來代理輔助內容編輯的發展。
自動並排評估已成為評估大型語言模型(LLMs)回應品質的一種有前途的方法。然而,分析這種評估方法的結果會帶來可擴展性和可解釋性方面的挑戰。本文介紹了LLM比較器,這是一種新穎的視覺分析工具,用於交互式分析自動並排評估的結果。該工具支持用戶進行交互式工作流程,以了解模型何時以及為何比基準模型表現更好或更差,以及兩個模型的回應在質量上有何不同。我們通過與一家大型科技公司的研究人員和工程師密切合作,通過反覆設計和開發該工具。本文詳細介紹了我們確定的用戶挑戰、工具的設計和開發,以及與定期評估其模型的參與者進行的觀察性研究。
大型語言模型(LLMs)在對話系統中日益普及,因為它們在一般情境中具有先進的理解和生成能力。然而,在需要不僅生成回應還要在特定任務和領域內有效跟踪對話狀態(DST)的任務導向對話(TOD)中,它們的效果仍然不盡人意。在這項工作中,我們提出了一種新方法 FnCTOD,通過函數調用來解決LLMs中的DST。這種方法改進了零-shot DST,使其能夠適應不同領域,而無需進行大量數據收集或模型調整。我們的實驗結果表明,我們的方法在中等大小的開源和專有LLMs上均取得了優異表現:通過上下文提示,使各種7B或13B參數模型超越了ChatGPT先前達到的最新技術水平(SOTA),並提高了ChatGPT的性能,超越SOTA 5.6%的平均JGA。 GPT-3.5和GPT-4的單個模型結果分別提高了4.8%和14%。我們還展示,通過在一小部分多樣化的任務導向對話上進行微調,我們可以為中等大小的模型提供功能調用能力,特別是13B參數LLaMA2-Chat模型,其DST性能可與ChatGPT相媲美,同時保持其聊天能力。我們計劃開源實驗代碼和模型。
擴散模型在圖像和視頻生成方面已被證明非常有效;然而,由於單一尺度訓練數據,它們在生成不同尺寸的圖像時仍面臨組合挑戰。將大型預訓練的擴散模型適應更高分辨率的需求,需要大量的計算和優化資源,但實現與低分辨率模型相媲美的生成能力仍然難以實現。本文提出了一種新穎的自我級聯擴散模型,利用從訓練良好的低分辨率模型獲得的豐富知識,快速適應更高分辨率的圖像和視頻生成,採用無調整或成本低廉的上採樣器調整範式。通過集成一系列多尺度上採樣器模塊,自我級聯擴散模型可以有效適應更高分辨率,保留原始的組合和生成能力。我們進一步提出了一種基於中心引導的噪聲重新安排策略,以加速推斷過程並改善局部結構細節。與完全微調相比,我們的方法實現了5倍的訓練加速,僅需要額外的0.002M調整參數。大量實驗表明,我們的方法可以通過僅微調10k步驟,快速適應更高分辨率的圖像和視頻合成,幾乎不需要額外的推斷時間。
本文展示了逐步對齊的語言模型能夠有效地搭建凍結視覺編碼器和大型語言模型(LLMs)之間的橋樑。儘管視覺編碼器和LLMs的基本架構和預訓練方法已被廣泛研究,但近期作品中視覺語言適配器的架構和訓練策略卻存在顯著差異。我們的研究對最先進的感知器重取樣器架構進行了深入探索並構建了一個強大的基準。然而,我們觀察到,使用感知器重取樣器進行視覺語言對齊表現出收斂速度緩慢且缺乏直接監督的可擴展性有限。為了解決這個問題,我們提出了PaLM2-VAdapter,採用逐步對齊的語言模型作為視覺語言適配器。與使用感知器重取樣器的強大基準相比,我們的方法在實驗中顯示出更快的收斂速度、更高的性能和更強的可擴展性。在各種視覺問答(VQA)和圖片、視頻標題任務上進行了大量實驗,證明了我們的模型具有最先進的視覺理解和多模態推理能力。值得注意的是,我們的方法在比最先進的大型視覺語言模型少30%至70%的參數下實現了這些進展,標誌著顯著的效率改進。
重建和渲染來自高度稀疏視圖的3D物體對於推動3D視覺技術應用並改善使用者體驗至關重要。然而,來自稀疏視圖的影像僅包含非常有限的3D信息,導致兩個重要挑戰:1)由於匹配的影像太少,難以建立多視圖一致性;2)部分遺漏或高度壓縮的物體信息,因為視圖覆蓋不足。為應對這些挑戰,我們提出了一個名為GaussianObject的框架,使用高斯點陣來表示和渲染3D物體,僅需4個輸入影像即可實現高質量渲染。我們首先引入了視覺外殼和浮動消除技術,明確地將結構先驗注入到初始優化過程中,以幫助建立多視圖一致性,從而產生粗糙的3D高斯表示。然後,我們基於擴散模型構建了一個高斯修復模型,以補充遺漏的物體信息,進一步優化高斯。我們設計了一個自生成策略,用於獲取訓練修復模型的影像對。我們的GaussianObject在幾個具有挑戰性的數據集上進行了評估,包括MipNeRF360、OmniObject3D和OpenIllumination,僅從4個視圖中實現了強大的重建結果,並顯著優於先前的最先進方法。
我們提出了通用操作介面(UMI)- 一個資料收集和策略學習框架,允許將野外人類示範的技能直接轉移到可部署的機器人策略中。UMI採用手持夾爪結合精心設計的介面,以實現可攜式、低成本和信息豐富的數據收集,用於具有挑戰性的雙手和動態操作示範。為了促進可部署的策略學習,UMI整合了一個精心設計的策略介面,具有推斷時間匹配的延遲和相對軌跡動作表示。所得到的學習策略不受硬件限制,可部署在多個機器人平台上。憑藉這些功能,UMI框架開啟了新的機器人操作能力,實現了零槍擊通用的動態、雙手、精確和長視程行為,只需改變每個任務的訓練數據。我們通過全面的現實世界實驗展示了UMI的多功能性和有效性,通過在多樣的人類示範上進行訓練,UMI學習的策略可以零槍擊推廣到新的環境和物體。UMI的硬件和軟件系統在https://umi-gripper.github.io上開源。
大型語言模型(LLMs)部署的多樣性背景需要能夠修改或自定義默認模型行為,以納入微妙的需求和偏好。一個方便的界面來指定這些模型調整是高層次的口頭反饋,例如“在給老闆起草郵件時不要使用表情符號”。然而,盡管撰寫高層次反饋比從人類反饋中收集強化學習標註(RLHF)要簡單得多,我們發現僅僅提示模型使用這樣的反饋會導致反饋在不相關的情境中過度泛化。我們研究了如何在不出現這種過度泛化的情況下納入口頭反饋的問題,啟發了一種新方法,即具有受限制偏好優化的情境化評論(C3PO)。C3PO使用一段高層次反饋來生成一個小型合成偏好數據集,指定了反饋應該(和不應該)應用的方式。然後,它根據合成偏好數據微調模型,同時最小化在不適用反饋的提示中與原始模型的差異。我們的實驗結果表明,我們的方法有效地將口頭反饋應用於相關情境,同時保留其他情境的現有行為。對於人類和GPT-4生成的高層次反饋,C3PO與上下文基準相比有效地遵循了給定的反饋,同時將過度泛化減少了30%。