每日精選AI研究論文及翻譯
檢索增強語言模型能更好地適應世界狀態的變化並納入長尾知識。然而,大多數現有方法僅從檢索語料庫中檢索短連續片段,限制對整體文件上下文的全面理解。我們引入了一種新穎的方法,通過遞歸嵌入、聚類和總結文本片段,從底部開始構建具有不同摘要級別的樹。在推論時,我們的RAPTOR模型從這棵樹中檢索,整合不同抽象級別的長文檔信息。控制實驗表明,使用遞歸摘要進行檢索在多項任務上比傳統的檢索增強語言模型有顯著改進。在涉及複雜、多步推理的問答任務中,我們展示了最先進的結果;例如,通過將RAPTOR檢索與GPT-4的使用結合,我們可以將在QuALITY基準測試中的最佳表現提高20%的絕對準確性。
在這個神經大語言模型(LLM)時代,n-gram語言模型仍然具有重要意義嗎?我們的答案是肯定的,我們展示了它們在文本分析和改進神經LLM中的價值。然而,這需要在兩個方面現代化n-gram模型。首先,我們以與神經LLM相同的數據規模訓練它們-- 1.4兆令牌。這是迄今為止建立的最大的n-gram模型。其次,現有的n-gram模型使用小的n會影響性能;我們允許n可以任意增大,通過引入一個具有回退功能的新infty-gram LM。我們開發了一個名為infini-gram的引擎,由後綴數組驅動,可以以毫秒級延遲計算infty-gram(以及任意n的n-gram)的概率,而不是預先計算n-gram計數表(這將非常昂貴)。infty-gram框架和infini-gram引擎使我們能夠對人類撰寫和機器生成的文本進行許多新穎和有趣的分析:我們發現infty-gram LM對於下一令牌預測有相當高的準確性(47%),並且可以補充神經LLM以大幅降低其語言建模的困惑度。在分析機器生成的文本時,我們還觀察到機器與infty-gram的一致性水平存在不規則性,這表明神經LLM預訓練和Transformer的位置嵌入存在缺陷。我們開源了我們的infini-gram引擎,希望能促進更多對如何最好地利用從大型文本語料庫檢索的逐字信息進行研究。
在擁擠環境中航行的四足機器人必須具有靈活性,以有效執行任務並確保安全,避免與障礙物或人類發生碰撞。現有研究要麼開發保守的控制器(<1.0 m/s)以確保安全,要麼專注於靈活性而不考慮潛在致命的碰撞。本文介紹了一種名為靈活但安全(ABS)的基於學習的控制框架,可讓四足機器人實現靈活且無碰撞的運動。ABS包括一個靈活策略,用於在障礙物中執行靈活的運動技能,以及一個恢復策略,用於防止失敗,共同實現高速和無碰撞的導航。ABS中的策略切換由一個學習的控制理論達避值網絡控制,同時將恢復策略作為一個客觀函數引導,從而在閉環中保護機器人。訓練過程包括在模擬環境中學習靈活策略、達避值網絡、恢復策略和外感知表示網絡。這些訓練過的模塊可以直接部署在現實世界中,具有機載感知和計算,實現在受限的室內和室外空間中高速且無碰撞的導航,應對靜態和動態障礙物。
視頻擴散模型因其能夠生成既連貫又高保真度的視頻而受到越來越多的關注。然而,迭代去噪過程使其計算密集且耗時,從而限制了其應用。受一致性模型(CM)的啟發,該模型將預訓練的圖像擴散模型提煉出來以加速採樣並減少步驟,以及其成功擴展的潛在一致性模型(LCM)用於條件圖像生成,我們提出了 AnimateLCM,實現高保真度視頻生成並減少步驟。我們提出了一種分離一致性學習策略,而非直接在原始視頻數據集上進行一致性學習,該策略將圖像生成先驗和運動生成先驗的提煉分離開來,從而提高了訓練效率並增強了生成的視覺質量。此外,為了實現在穩定擴散社區中組合即插即用的適配器以實現各種功能(例如,用於可控生成的 ControlNet),我們提出了一種有效策略,將現有的適配器適應到我們提煉的文本條件視頻一致性模型上,或從頭開始訓練適配器而不影響採樣速度。我們在圖像條件視頻生成和佈局條件視頻生成中驗證了所提出的策略,並取得了頂尖成績。實驗結果驗證了我們提出方法的有效性。代碼和權重將公開發布。更多詳細信息請參見 https://github.com/G-U-N/AnimateLCM。
將大型語言模型擴展以有效處理長文本內容,需要對類似長度的輸入序列進行指導微調。為了解決這個問題,我們提出了LongAlign - 一種用於長文本內容對齊的指導數據、訓練和評估方法。首先,我們使用Self-Instruct構建了一個長度指令跟隨數據集。為確保數據的多樣性,該數據集涵蓋了來自各種長文本來源的廣泛任務。其次,我們採用了打包和排序批次策略,以加快對具有不同長度分佈的數據進行監督微調。此外,我們開發了一種損失加權方法,在打包訓練期間平衡不同序列對損失的貢獻。第三,我們引入了LongBench-Chat基準測試,用於評估對長度為10k-100k的查詢的指導跟隨能力。實驗表明,LongAlign在長文本任務中比現有的LLM配方表現提高了高達30%,同時也保持了它們在處理短期通用任務方面的熟練程度。代碼、數據和長對齊模型均在https://github.com/THUDM/LongAlign上開源。
為了實現符合人類期望的忠實推理,大型語言模型(LLMs)需要將推理基於現實世界的知識(例如網絡事實、數學和物理規則)。工具有助於LLMs訪問這些外部知識,但在對LLM代理(例如Toolformer)進行微調以調用工具進行多步推理問題時仍存在挑戰,其中相互連接的工具調用需要整體和高效的工具使用規劃。 在這項工作中,我們提出了一種新方法,用於使LLMs更好地利用工具進行多步推理。我們的方法,抽象鏈(CoA),訓練LLMs首先解碼帶有抽象占位符的推理鏈,然後調用領域工具通過填入具體知識來具體化每個推理鏈。這種帶有抽象鏈的規劃使LLMs能夠學習更一般的推理策略,這些策略對於與不同推理問題相關的領域知識變化(例如數學結果)具有韌性。它還允許LLMs在並行中執行外部工具的解碼和調用,從而避免了等待工具響應而導致的推理延遲。在數學推理和Wiki QA領域中,我們展示了我們的方法在分布內和分布外測試集上始終優於以往的思維鏈和工具增強基線,平均QA準確度提高了約6%。使用我們方法訓練的LLM代理還表現出更高效的工具使用,推理速度平均比基線工具增強的LLMs快了約1.4倍。
在電腦圖形學中,生成3D模型是核心內容,也是數十年研究的焦點。隨著先進神經表示和生成模型的出現,3D內容生成領域正在迅速發展,使得能夠創建越來越高質量和多樣化的3D模型。這一領域的快速增長使得跟上所有最新發展變得困難。在這份調查中,我們旨在介紹3D生成方法的基本方法論,並建立一個結構化路線圖,包括3D表示、生成方法、數據集和相應應用。具體而言,我們介紹作為3D生成基礎的3D表示。此外,我們提供了對生成方法快速增長文獻的全面概述,按照算法範式類型進行分類,包括前饋生成、基於優化的生成、程序化生成和生成新視圖合成。最後,我們討論可用的數據集、應用和開放挑戰。我們希望這份調查能幫助讀者探索這一激動人心的主題,並促進3D內容生成領域的進一步發展。
大型語言模型(LLMs)的快速演進,以GPT-4等架構為代表,已經重新塑造了自然語言處理的格局。本文介紹了一種開創性方法,以應對與LLM預訓練相關的效率問題,提議使用知識蒸餾進行跨架構轉移。借鑒高效的Hyena機制的見解,我們的方法通過將轉換器模型中的注意力頭替換為Hyena,提供了一種成本效益高的替代方案,同時應對了處理長篇上下文信息的挑戰,這是二次注意機制固有的。與傳統的壓縮專注方法不同,我們的技術不僅提升了推理速度,還在準確性和效率方面超越了預訓練。在不斷演進的LLMs時代,我們的工作有助於追求可持續的人工智能解決方案,取得了計算能力與環境影響之間的平衡。
逼真的影片模擬已在各種應用中展現顯著潛力,從虛擬實境到電影製作皆然。尤其在捕捉現實世界影片場景不切實際或昂貴的情況下,其效果更為明顯。現有的影片模擬方法常常無法準確模擬光線環境、呈現物體幾何形狀,或實現高度逼真感。本文提出了「任何場景中的任何物件」,一個新穎且通用的逼真影片模擬框架,可將任何物件無縫地插入現有動態影片,並強調物理逼真感。我們提出的通用框架包含三個關鍵過程:1)將逼真物件整合到給定場景影片中,確保幾何逼真感的適當放置;2)估計天空和環境光照分佈,並模擬逼真陰影以增強光線逼真感;3)應用風格轉換網絡,精煉最終影片輸出以極大化逼真感。我們實驗性地證明「任何場景中的任何物件」框架可生成具有出色幾何逼真感、光線逼真感和逼真感的模擬影片。通過顯著減輕與影片數據生成相關的挑戰,我們的框架為獲取高質量影片提供了高效且具成本效益的解決方案。此外,其應用範圍遠不僅限於影片數據增強,在虛擬實境、影片編輯和各種其他以影片為中心的應用中展現出有前途的潛力。請查看我們的項目網站https://anythinginanyscene.github.io,以訪問我們的項目代碼和更多高分辨率影片結果。
我們介紹了ReplaceAnything3D模型(RAM3D),這是一種新穎的文本引導的3D場景編輯方法,可以替換場景中的特定物件。給定場景的多視角圖像、描述要替換的物件的文本提示以及描述新物件的文本提示,我們的Erase-and-Replace方法可以有效地將場景中的物件與新生成的內容進行交換,同時在多個視角保持3D一致性。我們展示了ReplaceAnything3D的多功能性,將其應用於各種逼真的3D場景,展示了修改過的前景物件的結果,這些物件與場景的其餘部分融為一體,而不影響整體完整性。
我們提出CARFF:條件自編碼輝度場,用於3D場景預測,這是一種根據過去觀察(例如2D自我中心圖像)來預測未來3D場景的方法。我們的方法通過概率編碼器將圖像映射到可能的3D潛在場景配置的分佈,並預測假設場景隨時間的演變。我們的潛在場景表示條件全局神經輝度場(NeRF)以表示3D場景模型,這有助於可解釋的預測和直觀的下游應用。這種方法擴展了以往的神經渲染工作,考慮了環境狀態和動態的不確定性。我們採用Pose-Conditional-VAE和NeRF的兩階段訓練來學習3D表示。此外,我們使用混合密度網絡,自回歸地預測潛在場景表示,作為部分可觀察馬爾可夫決策過程,以應對複雜的環境狀態和動態。我們通過CARLA駕駛模擬器在現實場景中展示了我們方法的效用,CARFF可用於在涉及視覺遮擋的複雜多智能體自動駕駛場景中實現高效的軌跡和應急計劃。