每日精選AI研究論文及翻譯
我們提出了ShareGPT4Video系列,旨在通過密集而精確的字幕來促進大規模視頻語言模型(LVLMs)的視頻理解和文本到視頻模型(T2VMs)的視頻生成。該系列包括:1)ShareGPT4Video,包含40K個GPT4V標註的視頻密集字幕,覆蓋各種長度和來源的視頻,通過精心設計的數據過濾和標註策略開發而成。2)ShareCaptioner-Video,一個高效而強大的任意視頻字幕模型,通過對4.8M個高質量美學視頻進行標註。3)ShareGPT4Video-8B,一個簡單而出色的LVLM,在三個不斷進步的視頻基準上實現了SOTA性能。為實現這一目標,我們發現,除去不可擴展的昂貴人工標註者,使用GPT4V對視頻進行字幕標註,採用天真的多幀或幀串接輸入策略,導致結果較少詳細,有時會混淆時間。我們認為設計高質量視頻字幕策略的挑戰在於三個方面:1)幀間精確的時間變化理解。2)幀內詳細的內容描述。3)對於任意長度的視頻,幀數的可擴展性。為此,我們精心設計了一種差異化的視頻字幕策略,穩定、可擴展且高效,適用於生成具有任意分辨率、寬高比和長度的視頻字幕。基於此,我們構建了ShareGPT4Video,其中包含40K個高質量視頻,涵蓋各種類別,生成的字幕包含豐富的世界知識、物體屬性、攝像機運動,重要的是,事件的詳細和精確的時間描述。基於ShareGPT4Video,我們進一步開發了ShareCaptioner-Video,一個優秀的字幕生成器,能夠高效生成任意視頻的高質量字幕...
最近幾年,基於擴散的影像生成模型展現出合成高品質內容的能力,取得了巨大成功。然而,這些模型包含龐大的參數量,導致模型大小顯著增大。保存和轉移這些模型對於各種應用來說是一個主要瓶頸,尤其是在運行於資源受限設備上的應用。在這項工作中,我們開發了一種新穎的權重量化方法,將 Stable Diffusion v1.5 的 UNet 量化為 1.99 位元,實現了一個模型,其大小減小了 7.9 倍,同時展現出比原始模型更好的生成品質。我們的方法包括幾種新穎技術,如為每個層分配最佳位元、初始化量化模型以獲得更好的性能,以及改進訓練策略以大幅降低量化誤差。此外,我們對我們的量化模型在各種基準數據集上進行了廣泛評估,並通過人類評估來展示其卓越的生成品質。
最近,直接偏好優化(DPO)已將其成功從對齊大型語言模型(LLMs)擴展到將文本到圖像擴散模型與人類偏好對齊。與大多數現有的DPO方法不同,這些方法假設所有擴散步驟與最終生成的圖像共享一致的偏好順序,我們認為這種假設忽略了每個步驟特定的去噪性能,並且應該為每個步驟的貢獻量定制偏好標籤。為了解決這一限制,我們提出了一種新的後訓練方法,即步驟感知偏好優化(SPO),該方法獨立評估並調整每個步驟的去噪性能,使用步驟感知偏好模型和逐步重採樣器來確保準確的步驟感知監督。具體來說,在每個去噪步驟中,我們對一組圖像進行抽樣,找到一對適當的勝負組合,更重要的是,從該組圖像中隨機選擇一個圖像來初始化下一個去噪步驟。這種逐步重採樣器過程確保下一個勝負圖像對來自同一個圖像,使勝負比較與上一步無關。為了評估每個步驟的偏好,我們訓練了一個獨立的步驟感知偏好模型,該模型可應用於噪聲和乾淨的圖像。我們使用Stable Diffusion v1.5和SDXL進行的實驗表明,SPO在對齊生成的圖像與複雜、詳細提示以及增強美學方面明顯優於最新的Diffusion-DPO,同時在訓練效率上實現了超過20倍的提升。代碼和模型:https://rockeycoss.github.io/spo.github.io/
我們介紹了一種名為「思緒緩衝區」(Buffer of Thoughts,BoT)的新穎且多用途的思緒增強推理方法,用於提升大型語言模型(LLMs)的準確性、效率和韌性。具體而言,我們提出了元緩衝區,用於存儲一系列信息豐富的高層次思緒,即從各種任務的問題解決過程中提煉出的思緒模板。然後,對於每個問題,我們檢索相關的思緒模板,並適應性地將其與具體的推理結構相結合,以進行高效的推理。為了確保可擴展性和穩定性,我們進一步提出了緩衝區管理器,動態更新元緩衝區,從而隨著解決更多任務而增強元緩衝區的容量。我們在10個具有挑戰性的推理密集型任務上進行了大量實驗,並在過去的最先進方法上實珅性能改進:在24點遊戲上提高了11%,在幾何形狀上提高了20%,在一步將軍上提高了51%。進一步的分析表明,我們的BoT具有出色的泛化能力和模型韌性,平均僅需多查詢提示方法(例如,思緒樹/圖)成本的12%。值得注意的是,我們發現我們的Llama3-8B+BoT有潛力超越Llama3-70B模型。我們的項目可在以下網址找到:https://github.com/YangLing0818/buffer-of-thought-llm
基於擴散的視頻生成模型已經展示出在通過迭代去噪過程中獲得高保真度視頻的顯著成功。然而,這些模型在抽樣過程中需要多個去噪步驟,導致高計算成本。在這項工作中,我們提出了一種新方法,通過利用對抗訓練來微調預訓練的視頻擴散模型,以獲得單步視頻生成模型。我們展示通過對抗訓練,多步視頻擴散模型,即穩定視頻擴散(SVD),可以被訓練以執行單次前向傳遞以合成高質量視頻,捕捉視頻數據中的時間和空間依賴性。大量實驗表明,我們的方法實現了與明顯降低的計算開銷相競爭的合成視頻生成質量(即與SVD相比加速約23倍,與現有作品相比加速約6倍,甚至具有更好的生成質量),為實時視頻合成和編輯鋪平了道路。更多可視化結果可在https://snap-research.github.io/SF-V 公開獲得。
擴散模型在文本到視頻(T2V)生成方面取得了巨大成功。然而,現有方法在處理涉及多個物件或物件數量動態變化的複雜(長)視頻生成場景時可能會面臨挑戰。為了解決這些限制,我們提出了VideoTetris,一個新穎的框架,可以實現組合式T2V生成。具體來說,我們提出了時空組合式擴散,通過在空間和時間上操作和組合去噪網絡的注意力地圖,以精確地遵循複雜的文本語義。此外,我們提出了增強的視頻數據預處理,以增強關於運動動態和及時理解的訓練數據,配備了一種新的參考幀注意機制,以提高自回歸視頻生成的一致性。大量實驗表明,我們的VideoTetris在組合式T2V生成方面取得了令人印象深刻的定性和定量結果。代碼可在以下鏈接中找到:https://github.com/YangLing0818/VideoTetris
在人工智慧社群中,建立能夠處理多樣任務並在不同環境中自我進化的通用代理是一個長期目標。大型語言模型(LLMs)被認為是建立此類代理的有前途基礎,因為它們具有廣泛的能力。目前的方法要麼讓基於LLM的代理模仿專家提供的軌跡一步一步進行,需要人類監督,這很難擴展並限制了環境探索;要麼讓代理在孤立環境中探索和學習,導致具有有限泛化能力的專家代理。在本文中,我們邁出了建立具有自我進化能力的通用LLM代理的第一步。我們確定了三個要素:1)為代理探索和學習提供多樣環境,2)一組軌跡以裝備代理基本能力和先前知識,以及3)一種有效且可擴展的進化方法。我們提出了AgentGym,一個新框架,具有各種環境和任務,用於廣泛、實時、統一格式和並行代理探索。AgentGym還包括一個擴展指令的數據庫、一個基準套件以及跨環境的高質量軌跡。接下來,我們提出了一種新方法AgentEvol,來探討代理在任務和環境之間超越先前見過數據的自我進化潛力。實驗結果顯示,進化的代理可以達到與SOTA模型相當的結果。我們釋出了AgentGym套件,包括平台、數據集、基準、檢查點和算法實現。AgentGym套件可在https://github.com/WooooDyy/AgentGym 上獲得。
文字引導的圖像生成技術使得可以從文字描述中創建視覺內容。然而,某些視覺概念無法僅通過語言有效傳達。這引發了對利用 CLIP 圖像嵌入空間進行更注重視覺的任務的興趣,其中包括 IP-Adapter 等方法。有趣的是,已經證明 CLIP 圖像嵌入空間具有語義意義,其中在此空間內的線性操作會產生語義上有意義的結果。然而,這些操作的具體含義在不同圖像之間可能會不可預測地變化。為了利用這一潛力,我們引入了 pOps,一個在 CLIP 圖像嵌入上直接訓練特定語義運算符的框架。每個 pOps 運算符都建立在預訓練的擴散先驗模型之上。儘管擴散先驗模型最初是為了將文本嵌入和圖像嵌入之間進行映射而進行訓練的,我們展示了它可以調整以適應新的輸入條件,從而產生一個擴散運算符。直接在圖像嵌入上工作不僅提高了我們學習語義操作的能力,還允許我們在需要時直接使用文本 CLIP 損失作為額外監督。我們展示了 pOps 可用於學習各種具有不同語義含義的受照片啟發的運算符,突出了我們提出方法的語義多樣性和潛力。
近年來,人工智慧系統的整體能力有了巨大的提升,主要是通過在互聯網規模數據上訓練基礎模型所推動的。然而,創建一個開放式、不斷自我改進的人工智慧仍然是一個難以捉摸的目標。在這篇立場論文中,我們認為現在已經具備了實現人工智慧系統對於人類觀察者具有開放性的條件。此外,我們主張這種開放性是任何人工超人類智慧(ASI)的基本特性。我們首先通過新奇性和可學習性的角度提供了開放性的具體形式定義。然後,我們通過在基礎模型之上構建的開放式系統展示了通往ASI的途徑,這些系統能夠進行新穎的、與人類相關的發現。最後,我們通過檢視一般能力的開放式人工智慧的安全影響來結論。我們預計,開放式基礎模型將在不久的將來被證明是一個日益豐富且安全關鍵的研究領域。