每日精選AI研究論文及翻譯
優化是無所不在的。儘管基於導數的演算法一直是各種問題的強大工具,但梯度缺失對許多現實應用構成挑戰。在這項工作中,我們提出了一種名為PROmpting優化(OPRO)的簡單而有效的方法,以利用大型語言模型(LLMs)作為優化器,其中優化任務以自然語言描述。在每個優化步驟中,LLM從包含先前生成的解以及其值的提示中生成新的解,然後評估這些新解並將其添加到下一個優化步驟的提示中。我們首先展示了OPRO在線性回歸和旅行推銷員問題上的應用,然後轉向提示優化,其中目標是找到最大化任務準確性的指令。通過多種LLM,我們展示了OPRO優化的最佳提示在GSM8K上比人工設計的提示高出多達8%,在Big-Bench Hard任務上高出多達50%。
大型語言模型(LLMs)在自然語言處理(NLP)和多模式任務中取得了顯著成功。儘管取得這些成就,它們的發展面臨兩個主要挑戰:(i)高計算成本;和(ii)難以進行公平客觀的評估。LLMs的成本極高,只有少數主要參與者才能進行培訓,這限制了研究和應用機會。這凸顯了成本效益高的LLM培訓的重要性。在本文中,我們利用增長策略顯著降低LLM培訓成本。我們展示了一個具有101B參數和0.31TB標記的LLM可以在10萬預算下進行培訓。我們還採用了一種系統評估範式,用於對LLMs進行智商評估,以補充現有更注重知識能力的評估。我們引入了我們的基準,其中包括對智能的重要方面進行評估,包括符號映射、規則理解、模式挖掘和抗干擾性。這些評估最大程度地減少了記憶的潛在影響。實驗結果表明,我們的模型FLM-101B,在10萬預算下進行培訓,與強大且知名的模型(例如GPT-3和GLM-130B)在IQ基準評估中取得了可比的表現,尤其是在訓練數據中未見過的情境下。FLM-101B的檢查點將在https://huggingface.co/CofeAI/FLM-101B上開源。
儘管大型語言模型(LLMs)具有令人印象深刻的能力,但容易出現幻覺,即生成與預訓練期間觀察到的事實偏離的內容。我們提出了一種簡單的解碼策略,用於減少預訓練LLMs的幻覺,不需要條件設定在檢索的外部知識或額外的微調。我們的方法通過對比從將後期層與早期層投影到詞彙空間獲得的對數的差異,獲取下一令牌分佈,利用了在LLMs中事實知識通常被顯示為局部化於特定變壓器層的事實。我們發現,這種對比層解碼(DoLa)方法能夠更好地展現事實知識並減少不正確事實的生成。DoLa在多選任務和開放式生成任務中持續提高真實性,例如將LLaMA系列模型在TruthfulQA上的表現提高了12-17個絕對百分點,展示了其在使LLMs可靠生成真實事實方面的潛力。
視頻分割的訓練數據很昂貴且耗時。這阻礙了將端到端算法擴展到新的視頻分割任務,特別是在大語彙設置中。為了在不對每個單獨的任務進行視頻數據訓練的情況下實現“追蹤任何物體”,我們開發了一種分離式視頻分割方法(DEVA),由任務特定的圖像級分割和類/任務不可知的雙向時間傳播組成。由於這種設計,我們只需要針對目標任務的圖像級模型(訓練成本較低)和一個通用的時間傳播模型,後者只需訓練一次即可應用於各種任務。為了有效結合這兩個模塊,我們使用雙向傳播來(半)在線融合來自不同幀的分割假設,以生成一致的分割。我們展示了這種分離式公式在幾個數據稀缺任務中的表現優於端到端方法,包括大語彙視頻全景分割、開放世界視頻分割、參考視頻分割和無監督視頻對象分割。代碼可在以下網址找到:https://hkchengrex.github.io/Tracking-Anything-with-DEVA
基於流的傳播和時空Transformer是視頻修補(VI)中兩種主流機制。儘管這些組件有效,但仍存在一些限制影響其性能。先前基於傳播的方法在圖像或特徵領域中分別執行。與學習分開的全局圖像傳播可能由於不準確的光流而導致空間不對齊。此外,記憶或計算限制限制了特徵傳播和視頻Transformer的時間範圍,阻礙了從遠處幀中探索對應信息。為解決這些問題,我們提出了一個改進的框架,稱為ProPainter,其中包括增強的ProPagation和高效的Transformer。具體而言,我們引入了雙域傳播,結合了圖像和特徵變形的優勢,可可靠地利用全局對應。我們還提出了一種掩碼引導的稀疏視頻Transformer,通過丟棄不必要和多餘的標記,實現了高效率。憑藉這些組件,ProPainter在保持吸引力效率的同時,PSNR方面的性能優於以往的藝術作品1.46 dB。
我們提出了ImageBind-LLM,一種透過ImageBind調整大型語言模型(LLMs)的多模式指令調整方法。現有的研究主要集中在語言和圖像指令調整,不同於此的是,我們的ImageBind-LLM可以應對多模式條件,包括音頻、3D點雲、視頻,以及它們的嵌入空間算術,僅通過圖像文本對齊訓練。在訓練期間,我們採用可學習的綁定網絡來對齊LLaMA和ImageBind的圖像編碼器之間的嵌入空間。然後,經過綁定網絡轉換的圖像特徵被添加到LLaMA所有層的詞元中,通過一種無關注且零初始化的閘控機制逐步注入視覺指令。在ImageBind的聯合嵌入的幫助下,簡單的圖像文本訓練使我們的模型展現出卓越的多模式指令遵循能力。在推斷期間,多模式輸入被餵入相應的ImageBind編碼器,並通過提出的視覺緩存模型進行進一步的跨模態嵌入增強處理。這個無需訓練的緩存模型從ImageBind提取的三百萬個圖像特徵中檢索,有效地減輕了訓練推斷模態差異。值得注意的是,採用我們的方法,ImageBind-LLM可以應對各種模式的指令並展現出顯著的語言生成質量。代碼已在https://github.com/OpenGVLab/LLaMA-Adapter釋出。
我們提出了InstructDiffusion,這是一個統一且通用的框架,用於將計算機視覺任務與人類指示對齊。與現有方法不同,這些方法整合了先前知識並為每個視覺任務預先定義了輸出空間(例如類別和座標),我們將各種視覺任務轉換為一個直觀的人類影像處理過程,其輸出空間是一個靈活且互動的像素空間。具體而言,該模型建立在擴散過程之上,並訓練以根據用戶指示預測像素,例如用紅色圈出男人的左肩或對左側汽車應用藍色遮罩。InstructDiffusion可以處理各種視覺任務,包括理解任務(如分割和關鍵點檢測)和生成任務(如編輯和增強)。它甚至展現了處理未見過任務的能力,並在新數據集上優於先前方法。這代表了通向視覺任務通用建模界面的重要一步,推動了計算機視覺領域人工通用智能的發展。
在本文中,我們提出了一種新穎的擴散模型,稱為 SyncDreamer,可以從單視圖圖像生成多視圖一致的圖像。利用預訓練的大規模 2D 擴散模型,最近的 Zero123 工作展示了從物體的單視圖圖像生成合理的新視圖的能力。然而,對於生成的圖像保持幾何和顏色一致性仍然是一個挑戰。為了解決這個問題,我們提出了一個同步多視圖擴散模型,該模型建模了多視圖圖像的聯合概率分佈,從而實現在單個反向過程中生成多視圖一致的圖像。SyncDreamer 通過一個 3D 感知特徵注意機制,在反向過程的每一步同步所有生成圖像的中間狀態,相關聯不同視圖之間的對應特徵。實驗表明,SyncDreamer 生成的圖像在不同視圖之間具有高度一致性,因此非常適用於各種 3D 生成任務,如新視圖合成、文本到 3D 和圖像到 3D。
最近在擴散模型方面的進展,如ControlNet,已經實現了幾何可控、高保真的文本到圖像生成。然而,目前還沒有解決如何將這種可控性應用到文本到三維生成的問題。為此,我們提出了Text2Control3D,一種可控的文本到三維頭像生成方法,其面部表情可以在使用手持攝像機隨意拍攝的單眼視頻中進行控制。我們的主要策略是在神經輻射場(NeRF)中構建三維頭像,並優化一組受控視角感知圖像,這些圖像是從ControlNet生成的,其條件輸入是從輸入視頻中提取的深度圖。在生成視角感知圖像時,我們利用交叉參考注意力,通過交叉關注注入良好控制的參考面部表情和外觀。我們還對擴散模型的高斯潛在進行低通濾波,以改善我們從實證分析中觀察到的與視角無關的紋理問題,其中視角感知圖像在相同像素位置包含相同的紋理,這在三維中是難以理解的。最後,為了訓練NeRF,使其能夠處理視角感知但幾何上不嚴格一致的圖像,我們的方法將每個圖像的幾何變化視為從共享的三維標準空間中的變形。因此,我們通過學習通過變形場表格的一組每個圖像變形,來在可變形的NeRF標準空間中構建三維頭像。我們展示了實證結果並討論了我們方法的有效性。
大型語言模型(LLMs)已經在各個領域變得無所不在,改變了我們與信息互動和進行研究的方式。然而,大多數表現優異的LLMs仍然被限制在專有領域之內,阻礙了科學進步。另一方面,大多數開源的LLMs在支持較長序列長度方面存在限制,這是許多需要對輸入上下文進行推斷的任務的關鍵要求。為了應對這一問題,我們訓練了XGen,一系列擁有70億參數模型,最長可達8K序列長度,總計可達1.5T標記。我們還對XGen模型在公共領域的指導性數據上進行了微調,創建了它們的指導性調整版本(XGen-Inst)。我們將我們的模型開源,旨在促進研究進展和商業應用。我們在標準基準測試上的評估顯示,與最先進的開源LLMs相比,XGen模型取得了可比或更好的結果。我們針對長序列建模任務的有針對性評估顯示,我們的8K序列模型相較於2K序列的開源LLMs具有更多優勢。
我們深入探討一個真實世界的機器人學習系統,先前的研究表明該系統能夠與人類進行數百次乒乓球對打,並具有將球精確返回到指定目標的能力。該系統結合了高度優化的感知子系統、高速低延遲的機器人控制器、一個可以在真實世界中防止損壞並訓練零樣本轉移策略的模擬範式,以及自動重置真實世界環境,實現對物理機器人的自主訓練和評估。我們補充了一個完整的系統描述,包括通常不廣泛傳播的許多設計決策,並附上一系列研究,澄清了緩解各種延遲來源、考慮訓練和部署分布變化、感知系統的穩健性、對策略超參數的敏感性以及行動空間的選擇等重要性。系統組件的演示視頻和實驗結果的詳細信息可在以下網址找到:https://youtu.be/uFcnWjB42I0。
受到潛在擴散模型(LDMs)在影像合成方面的卓越成功所啟發,我們研究了將LDM應用於文本到視訊生成的挑戰,這是一項艱鉅的任務,因為在模型訓練和推論過程中存在著計算和記憶限制。單個LDM通常僅能生成非常有限數量的視訊幀。一些現有研究專注於為生成更多視訊幀而設計獨立的預測模型,然而這些方法會增加額外的訓練成本並導致幀級抖動。在本文中,我們提出了一個名為“重用和擴散”(VidRD)的框架,以生成更多跟隨LDM已生成幀的視訊幀。在初始視訊片段的條件下,通過重複使用原始潛在特徵並遵循先前的擴散過程來迭代生成額外的幀。此外,為了用於像素空間和潛在空間之間轉換的自編碼器,我們將時間層注入其解碼器,並微調這些層以獲得更高的時間一致性。我們還提出了一組策略,用於組合包含來自多個現有數據集的多樣內容的視訊文本數據,包括用於動作識別的視訊數據集和圖像文本數據集。大量實驗表明,我們的方法在定量和定性評估中均取得了良好的結果。我們的項目頁面可在以下網址找到:https://anonymous0x233.github.io/ReuseAndDiffuse/{這裡}。