每日精選AI研究論文及翻譯
基於自注意力的視覺Transformer(ViTs)已成為計算機視覺中一種高競爭力的架構。與卷積神經網絡(CNNs)不同,ViTs能夠進行全局信息共享。隨著各種ViTs結構的發展,ViTs在許多視覺任務上具有越來越多的優勢。然而,自注意力的二次複雜度使ViTs在計算上變得密集,且它們缺乏局部性和平移等變性的歸納偏差,相對於CNNs,需要更大的模型尺寸來有效地學習視覺特徵。在本文中,我們提出了一種名為DualToken-ViT的輕量級高效視覺Transformer模型,該模型充分利用了CNNs和ViTs的優勢。DualToken-ViT有效地融合了通過基於卷積的結構獲得的局部信息的標記和通過基於自注意力的結構獲得的全局信息的標記,以實現高效的注意力結構。此外,我們在所有階段使用具有位置感知能力的全局標記來豐富全局信息,進一步增強DualToken-ViT的效果。位置感知全局標記還包含圖像的位置信息,使我們的模型更適合視覺任務。我們在圖像分類、目標檢測和語義分割任務上進行了大量實驗,以展示DualToken-ViT的有效性。在ImageNet-1K數據集上,我們不同規模的模型分別實現了75.4%和79.4%的準確率,僅使用0.5G和1.0G FLOPs,而我們的1.0G FLOPs模型優於使用全局標記的LightViT-T模型0.7%。
我們提出了MosaicFusion,這是一種簡單而有效的基於擴散的資料增強方法,適用於大詞彙實例分割。我們的方法無需訓練,也不依賴任何標籤監督。兩個關鍵設計使我們能夠將現成的文本到圖像擴散模型作為有用的數據集生成器,用於對象實例和遮罩標註。首先,我們將圖像畫布劃分為幾個區域,並進行單輪擴散過程,同時條件是不同的文本提示,以同時生成多個實例。其次,我們通過聚合與對象提示相關聯的跨注意力地圖來獲取相應的實例遮罩,跨層和擴散時間步驟,然後進行簡單的閾值處理和邊緣感知的精細處理。沒有花哨的東西,我們的MosaicFusion可以為罕見和新類別生成大量的合成標記數據。在具有挑戰性的LVIS長尾和開放詞彙基準測試中的實驗結果表明,MosaicFusion可以顯著提高現有實例分割模型的性能,特別是對於罕見和新類別。代碼將在https://github.com/Jiahao000/MosaicFusion 上發布。
神經網絡剪枝提供了一種有效的方法,用於壓縮多語言自動語音識別(ASR)模型,並且性能損失最小。然而,這需要進行幾輪剪枝和重新訓練,以便針對每種語言運行。在這項工作中,我們提出了在兩種情況下為了高效地剪枝多語言ASR模型而使用的自適應遮罩方法,每種情況都會產生稀疏的單語言模型或稀疏的多語言模型(稱為動態ASR路徑)。我們的方法動態地適應子網絡,避免對固定子網絡結構做出過早的決定。我們展示了我們的方法在針對稀疏的單語言模型時優於現有的剪枝方法。此外,我們說明了動態ASR路徑共同發現並訓練單個多語言模型的更好子網絡(路徑),通過從不同的子網絡初始化進行調整,從而減少了對特定語言剪枝的需求。
在網絡數據上進行預訓練已被證明是許多現代機器學習系統廣泛泛化的關鍵因素。如何實現這樣的能力在機器人強化學習(RL)中需要什麼?離線RL方法從機器人經驗數據集中學習,提供了一種將先前數據應用於機器人學習流程的方法。然而,這些方法與視頻數據(如Ego4D)存在“類型不匹配”,這是機器人技術中最大的先前數據集,因為視頻僅提供觀察經驗,而沒有RL方法所需的動作或獎勵標註。在本文中,我們開發了一個系統,完全基於通過時間差學習學習價值函數,以在機器人離線RL中利用大規模人類視頻數據集。我們展示了在視頻數據集上進行價值學習學習到的表示比其他從視頻數據學習的方法更有利於下游機器人離線RL。我們的系統名為V-PTR,結合了在視頻數據上的預訓練優勢和在多樣化機器人數據上進行訓練的機器人離線RL方法,從而產生更好、更穩健和更廣泛泛化的操作任務的價值函數和策略。在一臺真實的WidowX機器人上進行的幾個操作任務中,我們的框架生成的策略明顯優於先前的方法。我們的視頻和更多細節可在https://dibyaghosh.com/vptr/找到。