每日精選AI研究論文及翻譯
在語義分割的線上領域適應中,目標是處理在部署過程中發生的無法預見的領域變化,例如突發的天氣事件。然而,與暴力適應相關的高計算成本使得這種範式對於真實應用來說不可行。在本文中,我們提出了 HAMLET,一個針對即時領域適應的硬體感知模塊化最經濟訓練框架。我們的方法包括一個硬體感知反向傳播協調代理(HAMT)和一個專用的領域變化檢測器,使得可以主動控制模型何時以及如何進行適應(LT)。由於這些進步,我們的方法能夠在單個消費級 GPU 上以超過 29FPS 的速度執行語義分割並同時進行適應。我們的框架在 OnDA 和 SHIFT 基準測試中通過實驗結果展示了令人鼓舞的準確性和速度折衷。
我們提出了一種名為 NeRF-Det 的新方法,用於室內三維檢測,其以姿勢 RGB 圖像作為輸入。與現有的室內三維檢測方法不同,這些方法難以建模場景幾何,我們的方法巧妙地利用 NeRF 以端到端的方式明確估計三維幾何,從而提高了三維檢測性能。具體來說,為了避免與 NeRF 的每個場景優化相關的額外延遲,我們引入了足夠的幾何先驗知識,以增強 NeRF-MLP 的泛化能力。此外,我們通過共享 MLP 細緻地連接檢測和 NeRF 分支,實現了 NeRF 對檢測的高效適應,並為三維檢測提供了具有幾何意識的體積表示。我們的方法在 ScanNet 和 ARKITScenes 基準測試中分別比現有技術高出 3.9 mAP 和 3.1 mAP。我們提供了詳盡的分析,以闡明 NeRF-Det 的工作原理。由於我們的聯合訓練設計,NeRF-Det 能夠很好地泛化到未見過的場景,用於物體檢測、視圖合成和深度估計任務,而無需每個場景進行優化。代碼可在 https://github.com/facebookresearch/NeRF-Det 找到。
我們推出 MiDaS v3.1 用於單眼深度估計,提供基於不同編碼器骨幹的多種新模型。此版本的推出是受到變壓器在計算機視覺中的成功所啟發,現在有大量預訓練的視覺變壓器可供使用。我們探索如何使用最具潛力的視覺變壓器作為圖像編碼器,影響 MiDaS 結構的深度估計質量和運行時間。我們的研究還包括最近在圖像分類任務中實現與視覺變壓器相當質量的卷積方法。儘管先前版本的 MiDaS v3.0 僅利用基本視覺變壓器 ViT,MiDaS v3.1 提供了基於 BEiT、Swin、SwinV2、Next-ViT 和 LeViT 的其他模型。這些模型提供不同的性能-運行時間折衷。最佳模型將深度估計質量提高了 28%,而高效模型則實現了需要高幀率的下游任務。我們還描述了整合新骨幹的一般過程。可以在 https://youtu.be/UjaeNNFf9sE 找到總結這項工作的視頻,代碼可在 https://github.com/isl-org/MiDaS 找到。
在實際機器學習中,保持跨批次大小的訓練動態是一個重要工具,因為它能夠在批次大小和牆上時鐘時間之間取得平衡。這種平衡通常是通過一個縮放規則來實現的,例如,在隨機梯度下降中,應該將學習速率與批次大小成比例地調整。另一個實際機器學習中的重要工具是模型指數移動平均(EMA),這是一個模型副本,不接收梯度信息,而是通過一定的動量跟隨其目標模型。這種模型EMA可以提高監督學習的魯棒性和泛化性能,穩定虛標記,並為自監督學習提供學習信號。先前的研究將模型EMA與優化分開處理,導致不同批次大小之間的訓練動態和模型性能較低。在本研究中,我們提供了一個優化縮放規則,以應對模型EMA存在的情況,並證明其在各種架構、優化器和數據模態下的有效性。我們還展示了該規則在模型EMA有助於優化目標模型的情況下的有效性,使我們能夠在小型和大型批次大小下訓練基於EMA的虛標記和自監督學習方法。對於自監督學習,我們實現了對BYOL的訓練,批次大小可達24,576,而不會降低性能,最佳情況下可將牆上時鐘時間減少6倍。
在去噪擴散概率模型(DDPM)中,逐步合成樣本的擴散過程具有關鍵性質,該過程在圖像合成方面呈現了前所未有的質量,並最近在運動領域中得到了探索。在這項工作中,我們提議將逐步擴散概念(沿著擴散時間軸運作)適應到運動序列的時間軸中。我們的主要想法是擴展DDPM框架以支持時間變化的去噪,從而將這兩個軸纏繞在一起。使用我們的特殊公式,我們迭代地對包含一組越來越噪聲姿勢的運動緩衝區進行去噪,該過程自回歸地生成任意長的幀流。在固定的擴散時間軸中,在每個擴散步驟中,我們僅增加運動的時間軸,使框架生成一幅新的乾淨幀,該幀從緩衝區的開頭移除,然後附加一個新繪製的噪聲向量。這種新機制為長期運動合成打開了一條新途徑,可應用於角色動畫和其他領域。