每日精選AI研究論文及翻譯
本研究提出了「深度萬能」(Depth Anything),這是一個極為實用的解決方案,用於強健的單目深度估計。我們的目標不是追求新穎的技術模組,而是建立一個簡單而強大的基礎模型,可以應對任何情況下的任何圖像。為此,我們通過設計一個數據引擎來擴大數據集,收集並自動標註大規模未標記數據(約62百萬),從而顯著擴大了數據覆蓋範圍,進而能夠減少泛化誤差。我們研究了兩種簡單而有效的策略,使數據擴大變得有前途。首先,通過利用數據增強工具創建一個更具挑戰性的優化目標。這迫使模型積極尋求額外的視覺知識並獲取強健的表示。其次,發展了一種輔助監督,強制模型從預先訓練的編碼器中繼承豐富的語義先驗。我們對其零樣本能力進行了廣泛評估,包括六個公共數據集和隨機拍攝的照片。它展示了令人印象深刻的泛化能力。此外,通過使用來自NYUv2和KITTI的度量深度信息對其進行微調,我們設定了新的最佳結果。我們更好的深度模型也導致更好的深度條件下的ControlNet。我們的模型已在https://github.com/LiheYoung/Depth-Anything 上發布。
Pipeline parallelism 是大规模分布式训练的关键组成部分之一,然而其效率常受到管道气泡的影响,这被认为是不可避免的。在这项工作中,我们引入了一种调度策略,据我们所知,这是第一种成功在同步训练语义下实现零管道气泡的方法。这一改进背后的关键思想是将反向计算分为两部分,一部分计算输入的梯度,另一部分计算参数的梯度。基于这一思想,我们手工设计了新颖的管道调度,明显优于基准方法。我们进一步开发了一种算法,根据特定模型配置和内存限制自动找到最佳调度。此外,为了真正实现零气泡,我们引入了一种新颖的技术,在优化器步骤中绕过同步。实验评估表明,我们的方法在类似内存限制下的吞吐量上比 1F1B 调度高出多达 23%。当内存约束放宽时,这个数字可以进一步提高到 31%。我们相信我们的结果标志着在利用管道并行性的潜力方面迈出了重要的一步。我们已在 https://github.com/sail-sg/zero-bubble-pipeline-parallelism 上基于流行的 Megatron-LM 代码库开源了我们的实现。
為了電影業和視覺效果社區,生成符合前景主題運動的視頻背景是一個重要問題。這個任務涉及合成與前景主題運動和外觀相符的背景,同時符合藝術家的創意意圖。我們介紹了ActAnywhere,這是一個能自動化這個過程的生成模型,傳統上需要繁瑣的手動工作。我們的模型利用大規模視頻擴散模型的強大功能,並專門為這個任務量身定制。ActAnywhere接受一系列前景主題分割作為輸入,以及描述所需場景的圖像作為條件,以生成一個連貫的視頻,其中包括真實的前景-背景互動,同時遵循條件幀。我們在一個大規模的人-場景互動視頻數據集上訓練我們的模型。廣泛的評估顯示了我們模型優越的性能,明顯優於基準線。此外,我們展示了ActAnywhere對各種分布之外的樣本具有泛化能力,包括非人類主題。請訪問我們的項目網頁https://actanywhere.github.io。
本文提出了一個基於擴散模型的框架,用於從單張圖像為給定目標3D運動序列的人物進行動畫。我們的方法有兩個核心組件:a)學習有關人體不可見部分和服裝的先驗知識,以及b)呈現具有適當服裝和紋理的新身體姿勢。對於第一部分,我們學習一個填充擴散模型,以幻想給定單張圖像中人物的不可見部分。我們在紋理映射空間上訓練這個模型,這使其更具樣本效率,因為它對姿勢和視角不變。其次,我們開發了一個基於擴散的渲染流水線,由3D人體姿勢控制。這產生了人物新姿勢的逼真渲染,包括服裝、頭髮和不可見區域的合理填充。這種分離的方法使我們的方法能夠生成一系列圖像,這些圖像在3D姿勢方面忠實於目標運動,並在視覺相似性方面忠實於輸入圖像。除此之外,3D控制還允許各種合成相機軌跡來渲染人物。我們的實驗表明,與先前方法相比,我們的方法在生成持續運動和各種具有挑戰性和複雜姿勢方面具有韌性。請查看我們的網站以獲取更多詳細信息:https://boyiliee.github.io/3DHM.github.io/。
口述功能使移動設備上的文本輸入更加高效。然而,使用語音書寫可能會產生不流暢、冗長和不連貫的文本,因此需要進行大量後處理。本文介紹了Rambler,一個由LLM驅動的圖形用戶界面,支持對口述文本進行主旨級別的操作,具有兩個主要功能集:主旨提取和宏觀修訂。主旨提取生成關鍵詞和摘要作為錨點,以支持審查和與口述文本的交互。LLM輔助的宏觀修訂使用戶能夠重新口述、拆分、合併和轉換口述文本,而無需指定精確的編輯位置。它們共同為互動式口述和修訂鋪平道路,有助於彌合口語的即興詞語和結構良好的書寫之間的差距。在一項比較研究中,有12名參與者執行口頭作文任務,Rambler表現優於基準的語音轉文本編輯器+ChatGPT,因為它更好地促進了具有增強用戶對內容控制的迭代修訂,同時支持多樣化的用戶策略。
本文研究了基於概念的視頻Transformer表示的可解釋性問題。具體而言,我們旨在解釋基於高級時空概念的視頻Transformer的決策過程,這些概念是自動發現的。先前關於基於概念的可解釋性的研究僅集中在圖像級任務上。相比之下,視頻模型處理了額外的時間維度,增加了複雜性並在識別隨時間變化的動態概念方面提出挑戰。在這項工作中,我們通過引入第一個視頻Transformer概念發現(VTCD)算法系統性地應對這些挑戰。為此,我們提出了一種有效的方法,用於無監督識別視頻Transformer表示的單元 - 概念,並對其對模型輸出的重要性進行排名。所得到的概念具有很高的可解釋性,揭示了在非結構化視頻模型中的時空推理機制和以物體為中心的表示。通過對多種監督和自監督表示聯合進行此分析,我們發現其中一些機制在視頻Transformer中是通用的。最後,我們展示了VTCD可用於改善精細任務的模型性能。