每日精選AI研究論文及翻譯
利用大型視覺語言模型(如穩定擴散(SD)),在圖像編輯、圖像對應和3D形狀生成等多個下游任務上取得了顯著進展。受到這些進展的啟發,我們探索了如何利用這些龐大的視覺語言模型,通過提出SLiMe,以使用盡可能少的一個標註樣本來對圖像進行任意粒度的分割。SLiMe將這個問題框架化為一個優化任務。具體而言,給定一個訓練圖像及其分割遮罩,我們首先從SD先前提取注意力地圖,包括我們的新穎的“加權累積自注意力地圖”。然後,使用提取的注意力地圖,對穩定擴散的文本嵌入進行優化,使得每個嵌入都學習訓練圖像中的單個分割區域。這些學習的嵌入然後在注意力地圖中突出顯示分割區域,進而可用於推導分割地圖。這使得SLiMe能夠在推斷過程中對任何現實世界圖像進行分割,使用僅一個示例來自訓練圖像中的分割區域的粒度。此外,在有額外訓練數據可用時,即少樣本情況下,可以提高SLiMe的性能。我們進行了一系列知識豐富的實驗,研究了各種設計因素,並展示了SLiMe優於其他現有的一次樣本和少樣本分割方法。
先前的研究通常假設大型語言模型無法準確執行算術運算,特別是超過8位數的乘法,以及涉及小數和分數的運算,而無需使用計算器工具。本文旨在挑戰這種誤解。通過充足的訓練數據,一個擁有20億參數的語言模型可以在幾乎100%的準確率下進行多位數算術運算,並且沒有數據洩露問題,顯著超越了GPT-4(其多位數乘法的準確率僅為4.3%)。我們還展示了我們的MathGLM,從在文本中描述的具有額外多步算術運算和數學問題的數據集上對GLM-10B進行微調,實現了與GPT-4在一個包含5,000個樣本的中文數學問題測試集上類似的性能。
我們介紹了CM3Leon(發音為“Chameleon”),這是一種檢索增強、基於標記的、僅解碼器的多模態語言模型,能夠生成和填充文本和圖像。CM3Leon使用了CM3多模態架構,但同時展示了在更多多樣化指導式數據上進行擴展和調整的極大好處。這是第一個使用從僅文本語言模型調整而來的配方進行訓練的多模態模型,包括大規模檢索增強的預訓練階段和第二個多任務監督微調(SFT)階段。它也是一個通用模型,可以進行文本到圖像和圖像到文本的生成,使我們能夠引入自包含的對比解碼方法,產生高質量的輸出。大量實驗表明,這種配方對多模態模型非常有效。CM3Leon在文本到圖像生成方面實現了最先進的性能,比可比方法少5倍的訓練計算(零樣本MS-COCO FID為4.88)。在SFT之後,CM3Leon還可以展示在任務中從語言引導的圖像編輯到圖像控制生成和分割等任務中前所未有的可控性水平。
我們介紹了 Matcha-TTS,一種新的編碼器-解碼器架構,用於快速 TTS 聲學建模,使用最佳傳輸條件流匹配(OT-CFM)進行訓練。這產生了一個基於 ODE 的解碼器,能夠在比使用分數匹配訓練的模型更少的合成步驟中產生高質量的輸出。精心設計的選擇確保每個合成步驟運行速度快。該方法是概率的、非自回歸的,並且能夠從頭開始學會說話而無需外部對齊。與強大的預訓練基線模型相比,Matcha-TTS 系統具有最小的記憶體佔用量,在長句子上與最快模型的速度相媲美,並在聽測試中獲得最高的平均意見分數。請參閱 https://shivammehta25.github.io/Matcha-TTS/ 以獲取音頻示例、代碼和預訓練模型。
最近在視覺語言模型(VLMs)方面取得的進展已經提高了在視覺問答和圖像標註等任務上的表現。因此,這些模型現在已經能夠很好地推理物理世界,特別是在領域如機器人操作中。然而,目前的VLMs在對常見物體的物理概念(例如材質、脆弱性)的理解方面存在限制,這限制了它們在涉及與這些物體互動和進行物理推理的機器人操作任務中的實用性。為了解決這一限制,我們提出了PhysObjects,這是一個以物體為中心的數據集,包含了36.9K個眾包和417K個自動化的常見家庭物體的物理概念標註。我們展示了在PhysObjects上微調VLM可以提高對物理物體概念的理解,通過從視覺外觀中捕捉這些概念的人類先驗知識。我們將這種基於物理的VLM納入一個互動框架中,該框架搭配一個基於大型語言模型的機器人規劃器,並展示了在需要推理物理物體概念的任務上,與不利用基於物理的VLMs的基準相比,規劃性能得到了改善。此外,我們還展示了基於物理的VLM在真實機器人上的好處,它提高了任務成功率。我們釋出了我們的數據集,並在https://iliad.stanford.edu/pg-vlm/提供進一步的細節和結果的可視化。
神經場是一類訓練用於表示高頻信號的神經網絡,近年來因其在建模複雜的3D數據,特別是大型神經符號距離(SDFs)或輻射場(NeRFs)方面表現出色而受到重視,透過單個多層感知器(MLP)。然而,儘管使用MLP表示信號的能力和簡單性,這些方法在建模大型和複雜的時間信號時仍然面臨挑戰,這是由於MLP的容量有限。在本文中,我們提出了一種有效的方法來解決這一限制,即將時間殘差層納入神經場中,被稱為ResFields,這是一類新型網絡,專門設計用於有效表示複雜的時間信號。我們對ResFields的特性進行了全面分析,並提出了一種矩陣分解技術,以減少可訓練參數的數量並增強泛化能力。重要的是,我們的公式與現有技術無縫集成,並在各種具有挑戰性的任務中持續改進結果:2D視頻近似、通過時間SDFs進行動態形狀建模以及動態NeRF重建。最後,我們通過展示ResFields在從輕量級捕捉系統的稀疏感測輸入中捕捉動態3D場景的有效性,展示了ResFields的實際應用價值。
神經輻射場(Neural Radiance Fields,NeRFs)在視角合成和深度估計等應用中表現出潛力,但從多視角圖像中學習面臨固有的不確定性。目前用於量化這些不確定性的方法要麼是啟發式的,要麼是計算上要求很高的。我們引入了BayesRays,一個事後框架,用於評估任何預先訓練的NeRF中的不確定性,而無需修改訓練過程。我們的方法利用空間擾動和貝葉斯拉普拉斯近似建立體積不確定性場。我們在統計上推導了我們的算法,並展示了其在關鍵指標和應用中的優越性能。更多結果請參閱:https://bayesrays.github.io。
人類的靈巧性是運動控制的一個標誌。儘管肌骨感覺運動回路的複雜性(多關節和多關節,由40多個肌肉控制的23個關節) ,我們的手能夠迅速合成新的行為。在這項工作中,我們受到人類靈巧性如何建立在各種先前經驗基礎上的啟發,而不是通過單一任務獲得的。受到這一觀察的激勵,我們開始開發能夠建立在先前經驗基礎上以迅速獲得新的(以前無法達到的)行為的代理人。具體而言,我們的方法利用多任務學習來隱式捕捉人類靈巧性的任務不可知行為先驗(MyoDex),使用一個生理逼真的人手模型 - MyoHand。我們展示了MyoDex在少樣本泛化以及對大量未見靈巧操作任務的積極轉移中的有效性。利用MyoDex的代理人可以解決大約多3倍的任務,並比蒸餾基線方法快4倍。儘管以前的工作合成了單一的肌骨控制行為,但MyoDex是第一個通用的操作先驗,促進了對接觸豐富行為的大量靈巧生理控制的學習。我們還展示了我們的範式在肌骨控制之外對Adroit Hand的24個自由度靈巧性獲得的有效性。網站:https://sites.google.com/view/myodex