每日精選AI研究論文及翻譯
我們提出了Magic123,一種從單一未經姿勢處理的野外圖像生成高質量、帶紋理的3D網格的兩階段粗到細方法,利用2D和3D先驗。在第一階段,我們優化神經輻射場以生成粗略幾何。在第二階段,我們採用內存高效的可微網格表示,產生具有視覺吸引力紋理的高分辨率網格。在兩個階段中,通過參考視圖監督和由2D和3D擴散先驗組合引導的新視圖,學習3D內容。我們引入了一個單一的權衡參數,用於控制生成幾何的探索(更具想像力)和開發(更精確)之間的平衡。此外,我們應用文本反演和單眼深度正則化,鼓勵跨視圖保持一致外觀,並防止退化解。Magic123在合成基準測試和多樣的現實世界圖像上進行了廣泛實驗,顯示明顯優於先前的圖像到3D技術。我們的代碼、模型和生成的3D資產可在https://github.com/guochengqian/Magic123 上找到。
大型語言模型(LLMs)提供了一個有前途的工具,使機器人能夠執行複雜的機器人推理任務。然而,當代LLMs的有限上下文窗口使得對長時間範圍進行推理變得困難。例如,家用機器人可能執行的具體任務通常要求規劃者考慮很久以前獲得的信息(例如,機器人先前在環境中遇到的許多物體的特性)。試圖使用LLM的隱式內部表示來捕捉世界狀態受到機器人行動歷史中缺乏任務和環境相關信息的限制,而依賴於透過提示向LLM傳遞信息的方法受到其有限上下文窗口的限制。在本文中,我們提出了Statler,這是一個賦予LLMs對世界狀態進行明確表示的“記憶”形式的框架,並且該記憶會隨時間保持。Statler的核心是使用兩個通用LLMs實例 - 世界模型閱讀器和世界模型寫入器 - 這兩者與並且維護世界狀態進行接口。通過提供對這種世界狀態“記憶”的訪問,Statler提高了現有LLMs在不受上下文長度限制的情況下對更長時間範圍進行推理的能力。我們在三個模擬桌面操作領域和一個真實機器人領域上評估了我們方法的有效性,並展示了它在基於LLMs的機器人推理中改進了最新技術。項目網站:https://statler-lm.github.io/
視覺轉換器(ViTs)已顯著改變了計算機視覺領域,並在視覺任務中時常展現出比卷積神經網絡(CNNs)更優越的性能。儘管目前對於哪種模型類型更優勢仍有爭議,但每種模型都具有獨特的歸納偏差,塑造了它們的學習和泛化性能。例如,ViTs在早期層的非局部特徵依賴性方面具有有趣的特性,以及能夠增強學習靈活性的自注意機制,使它們能夠更有效地忽略圖像中不相關的信息。我們假設這種忽略不相關信息的能力(我們稱之為補丁選擇性),以及在早期層以非局部方式整合相關信息的能力,使ViTs更容易應對遮擋。在這項研究中,我們的目標是看看是否我們可以讓CNNs模擬這種補丁選擇性的能力,通過有效地將這種歸納偏差硬編碼進去,使用補丁混合數據增強進行訓練,該方法包括將來自另一圖像的補丁插入到訓練圖像中,並在兩個圖像類別之間插值標籤。具體來說,我們使用補丁混合來訓練最先進的ViTs和CNNs,評估其對它們忽略不相關補丁並處理自然遮擋的影響。我們發現,當使用補丁混合進行訓練時,ViTs的性能沒有改善也沒有下降,但CNNs獲得了新的能力來忽略不相關信息並在遮擋基準上取得進步,這使我們得出結論,這種訓練方法是在CNNs中模擬ViTs已經擁有的能力的一種方式。我們將釋出我們的補丁混合實現和提議的數據集供公眾使用。項目頁面:https://arielnlee.github.io/PatchMixing/
在深度學習理論中,表示的共變矩陣被視為一個代理,用於檢查網絡的可訓練性。受到Transformer成功的啟發,我們研究了具有跳躍連接的修改Softmax-based注意力模型的共變矩陣,在無限深度和寬度的比例極限下。我們展示了在初始化時,極限分佈可以通過一個隨機微分方程(SDE)來描述,其索引為深度寬度比。為了實現一個明確定義的隨機極限,Transformer的注意力機制被修改,通過將Softmax輸出居中於身份,並通過依賴寬度的溫度參數來調整Softmax logits。我們通過相應的SDE檢驗網絡的穩定性,展示了如何通過剩餘連接優雅地控制漂移和擴散的規模。穩定SDE的存在意味著共變結構表現良好,即使對於非常大的深度和寬度,也能防止深度注意力模型中的秩退化問題。最後,我們通過模擬展示,SDE對應的有限尺寸模型提供了一個令人驚訝的描述。我們為這些架構修改命名為“形狀Transformer”。
本文提出了一種新機制,以促進面向全景分割的遮罩變壓器的訓練,實現其部署的民主化。我們觀察到,由於其高複雜性,面向全景分割的訓練目標將不可避免地導致更高的偽陽性懲罰。這種不平衡的損失使得基於端對端遮罩變壓器架構的訓練過程變得困難,特別是對於高效模型。本文提出了ReMaX,它在面向全景分割的訓練過程中為遮罩預測和類別預測添加了放鬆。我們展示通過這些簡單的放鬆技術,在訓練過程中,我們的模型可以通過明顯的邊界持續改進,而無需額外的推斷計算成本。通過將我們的方法與MobileNetV3-Small等高效骨幹結合,我們的方法在COCO、ADE20K和Cityscapes上實現了高效全景分割的新最先進結果。代碼和預訓練檢查點將在https://github.com/google-research/deeplab2 提供。