每日精選AI研究論文及翻譯
我們介紹 Lumiere ── 一種文本到視頻擴散模型,旨在合成展現逼真、多樣且連貫運動的視頻 ── 這是視頻合成中的一個關鍵挑戰。為此,我們引入了一種空時 U-Net 架構,通過模型中的單次通過生成整個視頻的時間持續。這與現有的視頻模型形成對比,後者合成遠程關鍵幀,然後進行時間超分辨率 ── 這種方法從根本上使全局時間一致性難以實現。通過部署空間和(重要的)時間下採樣和上採樣,並利用預先訓練的文本到圖像擴散模型,我們的模型學會了通過在多個空時尺度處理來直接生成全幀率、低分辨率視頻。我們展示了最先進的文本到視頻生成結果,並表明我們的設計輕鬆促進了各種內容創作任務和視頻編輯應用,包括圖像到視頻、視頻修補和風格化生成。
在2023年,AI社群中流行著玩大型視覺語言模型(LVLMs)。然而,熱門LVLMs相對較大的參數數量(超過7B)使得在消費者GPU上訓練和部署變得困難,這阻礙了許多資源有限的研究人員。想像一下,在一張老舊的GTX1080ti(我們唯一的遊戲卡)上體驗當前LVLMs的所有功能會有多酷。因此,我們在本報告中提出了Vary-toy,一個小型Vary,以Qwen-1.8B作為基礎的“大”語言模型。在Vary-toy中,我們引入了一個改進的視覺詞彙,使模型不僅具備Vary的所有功能,還具有更多的泛化性。具體來說,在生成視覺詞彙的過程中,我們用物體檢測驅動的正樣本數據取代自然圖像的負樣本,更充分地利用詞彙網絡的容量,使其能夠有效編碼對應於自然物體的視覺信息。在實驗中,Vary-toy在DocVQA上可達到65.6%的ANLS,ChartQA上的準確率為59.1%,RefCOCO上的準確率為88.1%,MMVet上為29%。代碼將在主頁上公開提供。
結合語言、視覺,以及近期的行動的基礎模型已經革新了利用網際網路規模數據來推理有用任務的能力。然而,訓練具體基礎模型的一個關鍵挑戰是缺乏根植於物理世界的數據。本文提出了AutoRT,一個利用現有基礎模型來擴大在完全未知情境中部署操作機器人的系統,並且只需最少人類監督。AutoRT利用視覺語言模型(VLMs)進行場景理解和根據,進一步利用大型語言模型(LLMs)提出多樣且新穎的指令,供一組機器人執行。通過利用基礎模型的知識指導數據收集,AutoRT能夠有效地推理自主權和安全性的折衷方案,同時大幅擴大機器人學習的數據收集。我們展示了AutoRT向超過20台機器人提出指令,跨越多棟建築物,並通過遠程操作和自主機器人策略收集了77k個真實機器人情節。我們實驗性地展示了AutoRT收集的這種「野外」數據明顯更加多樣化,而AutoRT使用LLMs允許機器人按照人類喜好來遵循指令。
大型語言模型(LLMs)通常在推論過程中採用自回歸生成,導致高內存帶寬需求,進而延長延遲時間。為了減輕這種效率低下的情況,我們提出了Lossless Acceleration的雙向調整(BiTA),透過簡化的半自回歸生成和初步驗證來加速LLMs的創新方法。受提示調整概念的啟發,我們使用一種稱為雙向調整的參數高效設計來增強LLMs在半自回歸生成方面的能力。採用高效的基於樹的解碼,模型可以並行執行初步候選生成和驗證,確保在貪婪抽樣下輸出與其自回歸對應物相同。BiTA作為一個輕量級的插件模塊,無縫地提升現有LLMs的推論效率,而無需額外的輔助模型或產生顯著的額外內存成本。應用所提出的BiTA,LLaMA-2-70B-Chat在MT-Bench基準測試中實現了2.7倍的加速。廣泛的實驗證實了我們的方法超越了最先進的加速技術。
我們提出了GALA,一個框架,它以單層穿著的3D人體網格作為輸入,並將其分解為完整的多層3D資產。然後可以將輸出與其他資產結合,創建具有任何姿勢的新穿著人類化身。現有的重建方法通常將穿著的人類視為單層幾何,忽略了具有髮型、服裝和配飾的人類的固有組成性,從而限制了網格對下游應用的效用。將單層網格分解為獨立層是一項具有挑戰性的任務,因為它需要為嚴重遮蔽區域合成合理的幾何和紋理。此外,即使成功分解,網格在姿勢和身體形狀方面也沒有進行規範化,無法與新的身份和姿勢進行一致的組合。為了應對這些挑戰,我們建議利用預先訓練的2D擴散模型的一般知識作為人類和其他資產的幾何和外觀先驗。我們首先使用從多視圖2D分割中提取的3D表面分割來分離輸入網格。然後,我們使用一種新穎的姿勢引導的得分蒸餾抽樣(SDS)損失,在姿勢和規範空間中合成不同層的缺失幾何。一旦我們完成修補高保真度的3D幾何,我們還將相同的SDS損失應用於其紋理,以獲得包括最初遮蔽區域在內的完整外觀。通過一系列的分解步驟,我們在共享的規範空間中獲得了多層3D資產,這些資產在姿勢和人體形狀方面進行了規範化,從而支持對新身份的輕鬆組合和對新姿勢的重新動畫。我們的實驗證明了我們的方法在分解、規範化和組合任勞任怨的效果,相較於現有解決方案。
在大型模型時代,解碼的自回歸特性通常導致延遲成為一個重要瓶頸。我們提出了一種非自回歸 LM 融合 ASR 系統,有效地利用加速器硬件的並行能力。我們的方法結合了通用語音模型(USM)和 PaLM 2 語言模型,以每段評分模式,在 FLEURS 和 YouTube 字幕等所有語言上實現了平均相對 WER 改善,分別為 10.8% 和 3.6%。此外,我們的全面消融研究分析了關鍵參數,如 LLM 大小、上下文長度、詞彙大小、融合方法等。例如,我們探討了從 128M 到 340B 參數的 LLM 大小對 ASR 性能的影響。這項研究為影響實際大規模 LM 融合語音識別系統效果的因素提供了寶貴的見解。