每日精選AI研究論文及翻譯
我們介紹了StreamDiffusion,一個專為互動式圖像生成而設計的即時擴散管道。現有的擴散模型擅長從文本或圖像提示中創建圖像,但在實時互動方面常常表現不佳。這種限制在涉及連續輸入的情況下尤為明顯,例如Metaverse、直播視頻流和廣播,這些情況下高吞吐量至關重要。為了應對這一挑戰,我們提出了一種新方法,將原始的順序去噪轉換為批量去噪過程。Stream Batch消除了傳統的等待互動方法,實現了流暢且高吞吐量的流程。為了應對數據輸入與模型吞吐量之間的頻率差異,我們設計了一個新的輸入-輸出隊列,以實現流式處理的並行化。此外,現有的擴散管道使用無分類器引導(CFG),需要額外的U-Net計算。為了減少冗餘計算,我們提出了一種新的殘差無分類器引導(RCFG)算法,將負條件去噪步驟的數量減少到只有一個甚至零個。此外,我們引入了一種隨機相似性濾波器(SSF)來優化功耗。我們的Stream Batch在不同去噪水平上實現了約1.5倍的加速,比順序去噪方法快。所提出的RCFG的速度比傳統CFG快高達2.05倍。結合所提出的策略和現有成熟的加速工具,使圖像生成達到每秒91.07幀的速度,這是Diffusers開發的AutoPipline的吞吐量提高了59.56倍。此外,我們提出的StreamDiffusion還將能源消耗在一個RTX3060上降低了2.39倍,在一個RTX4090上降低了1.99倍。
我們介紹了 VideoPoet,一種能夠從各種條件信號中合成高質量視頻並配有相應音頻的語言模型。VideoPoet採用僅解碼器的Transformer架構,處理多模態輸入,包括圖像、視頻、文本和音頻。訓練協議遵循大型語言模型(LLMs)的方式,包括兩個階段:預訓練和任務特定適應。在預訓練期間,VideoPoet在自回歸Transformer框架中結合多模態生成目標。預訓練的LLM作為基礎,可適應各種視頻生成任務。我們提供了實證結果,展示了該模型在零樣本視頻生成方面的最新能力,特別突出了VideoPoet生成高保真運動的能力。項目頁面:http://sites.research.google/videopoet/
本文介紹了PowerInfer,這是一個在個人電腦(PC)上配備單個消費級GPU 的高速大型語言模型(LLM)推理引擎。PowerInfer 設計的關鍵基礎是利用LLM推理中固有的高局部性,其特點是神經元激活呈冪律分佈。該分佈表明,一小部分神經元,稱為熱神經元,在各個輸入中始終被激活,而大多數冷神經元則根據具體輸入而變化。PowerInfer 利用這樣的見解設計了一個GPU-CPU混合推理引擎:將熱激活的神經元預先加載到GPU上以實現快速訪問,而冷激活的神經元則在CPU上計算,從而顯著降低了GPU內存需求和CPU-GPU數據傳輸。PowerInfer 進一步集成了自適應預測器和神經元感知稀疏運算符,優化神經元激活和計算稀疏性的效率。評估顯示,PowerInfer 在單個 NVIDIA RTX 4090 GPU 上實現了平均每秒 13.20 個標記生成速率,最高可達每秒 29.08 個標記,跨多種LLM(包括OPT-175B)的表現,僅比頂級服務器級A100 GPU實現的速度低18%。這明顯優於 llama.cpp 高達11.69倍,同時保持模型準確性。
人類能夠輕鬆解決多模式任務並在上下文中操作(即,僅需少量示範或簡單指示),這是目前多模式系統在模仿上大多數困難的地方。在這項工作中,我們展示了大型多模式模型的任務不可知上下文學習能力可以通過有效的擴展大幅增強。我們引入了Emu2,一個具有370億參數的生成式多模式模型,通過統一的自回歸目標在大規模多模式序列上進行訓練。Emu2展現出強大的多模式上下文學習能力,甚至能夠解決需要即時推理的任務,例如視覺提示和對象導向生成。該模型在少量示範設置下在多個多模式理解任務上創下了新紀錄。當根據特定指示進行調整後,Emu2在挑戰性任務上取得了新的最先進成果,例如大型多模式模型的問答基準測試和開放式主題驅動生成。這些成就表明Emu2可以作為基礎模型和廣泛多模式任務的通用接口。代碼和模型已公開提供,以促進未來研究。
從單一肖像圖像生成情感對話臉龐仍然是一個重大挑戰。實現表達豐富的情感對話和準確的嘴唇同步是特別困難的,因為通常為了嘴唇同步的準確性而犧牲了表現力。許多先前的作品廣泛採用的LSTM網絡往往無法捕捉情感表達的微妙變化。為應對這些挑戰,我們引入了DREAM-Talk,這是一個針對同時生成多樣表情和準確嘴唇同步的兩階段擴散驅動框架。在第一階段,我們提出了EmoDiff,一個新穎的擴散模塊,根據音頻和參考情感風格生成多樣高動態範圍的情感表達和頭部姿勢。鑒於嘴唇運動與音頻之間的密切相關性,我們使用音頻特徵和情感風格來提高動態表現和嘴唇同步的準確性。為此,我們部署了一個視頻到視頻渲染模塊,將表情和嘴唇運動從我們的代理3D頭像轉移到任意肖像。無論從定量還是定性方面,DREAM-Talk在表現力、嘴唇同步準確性和感知質量方面均優於最先進的方法。
基於擴散的模型展示了在文本到圖像生成方面令人印象深刻的能力,並且被期望用於主題驅動生成的個性化應用,這些應用需要根據一個或少數參考圖像生成定制概念。然而,現有基於微調的方法未能平衡主題學習和預訓練模型生成能力之間的折衷。此外,其他利用額外圖像編碼器的方法往往由於編碼壓縮而丟失主題的重要細節。為應對這些挑戰,我們提出了DreamTurner,一種新穎的方法,通過從粗到細注入參考信息,更有效地實現主題驅動的圖像生成。DreamTurner引入了一個主題編碼器,用於粗略主題身份保存,通過一個注意力層將壓縮的一般主題特徵引入視覺-文本交叉注意力之前。然後,我們修改了預訓練文本到圖像模型中的自注意力層,使其成為自主題注意力層,以精細調整目標主題的細節。生成的圖像在自主題注意力中從參考圖像和自身中查詢詳細特徵。值得強調的是,自主題注意力是一種有效、優雅且無需訓練的方法,用於保持定制主題的詳細特徵,並可在推論過程中作為即插即用的解決方案。最後,通過額外的主題驅動微調,DreamTurner在主題驅動的圖像生成方面實現了卓越的性能,可以由文本或其他條件(如姿勢)控制。欲了解更多詳情,請訪問項目頁面https://dreamtuner-diffusion.github.io/。
儘管單眼深度估計方法在標準基準測試上取得了顯著進展,但零樣本度量深度估計仍未解決。挑戰包括室內和室外場景的聯合建模,這些場景通常展現出顯著不同的RGB和深度分佈,以及由於未知相機內部參數而導致的深度尺度模糊。最近的研究提出了專門的多頭架構,用於聯合建模室內和室外場景。相比之下,我們主張一種通用的、任務不可知的擴散模型,具有多項先進技術,例如對數尺度深度參數化,以實現室內和室外場景的聯合建模,並條件化視野(FOV)以處理尺度模糊,並在訓練期間對FOV進行合成增強,以實現超越訓練數據集中有限相機內部參數的泛化。此外,通過使用比通常更多樣化的訓練混合物和高效的擴散參數化,我們的方法DMD(度量深度擴散)在零樣本室內減少了25%的相對誤差(REL),在零樣本室外數據集上減少了33%,僅使用少量去噪步驟即可超越當前的SOTA。有關概述,請參見https://diffusion-vision.github.io/dmd
本文介紹了Fairy,這是一種極簡但堅固的影像編輯擴散模型改進版,專為視頻編輯應用而設計。我們的方法著重於錨點式跨幀關注的概念,這是一種隱式地在幀之間傳播擴散特徵的機制,確保了卓越的時間一致性和高保真度的合成。Fairy不僅解決了先前模型的限制,包括內存和處理速度,還通過獨特的數據擴增策略改進了時間一致性。該策略使模型對源圖像和目標圖像中的仿射變換具有等變性。令人驚訝的是,Fairy僅需14秒即可生成120幀512x384視頻(30 FPS下的4秒持續時間),速度比先前的作品快至少44倍。一項包括1000個生成樣本的全面用戶研究證實,我們的方法提供了卓越的質量,明顯優於已建立的方法。
擴散模型已成為影片生成的事實上範式。然而,它們對於各種品質的網絡規模數據的依賴通常會產生外觀不吸引人且與文本提示不一致的結果。為了應對這個問題,我們提出了InstructVideo,通過獎勵微調利用人類反饋來指導文本到影片的擴散模型。InstructVideo具有兩個關鍵要素:1) 為了改善通過完整DDIM採樣鏈生成所引起的獎勵微調成本,我們將獎勵微調重新定義為編輯。通過利用擴散過程來破壞採樣的影片,InstructVideo僅需要對DDIM採樣鏈進行部分推斷,降低微調成本同時提高微調效率。2) 為了減輕缺乏專用影片獎勵模型用於人類偏好的問題,我們重新運用已建立的圖像獎勵模型,例如HPSv2。為此,我們提出了Segmental Video Reward,一種基於區段稀疏採樣提供獎勵信號的機制,以及Temporally Attenuated Reward,一種在微調期間減輕時間建模退化的方法。廣泛的實驗,無論是質性還是量化的,驗證了在InstructVideo中使用圖像獎勵模型的實用性和功效,顯著提高了生成的影片的視覺質量,同時不損害泛化能力。代碼和模型將公開提供。
我們介紹了Splatter Image,這是一種超快速的單眼3D物體重建方法,操作速度達到每秒38幀。Splatter Image基於高斯飛濺技術,該技術最近為多視角重建帶來了實時渲染、快速訓練和優秀的擴展性。我們首次將高斯飛濺技術應用於單眼重建環境中。我們的方法基於學習,測試時僅需要對神經網絡進行前向評估即可進行重建。Splatter Image的主要創新在於其驚人簡單的設計:它使用2D圖像對圖像網絡,將輸入圖像映射到每個像素的一個3D高斯分布。因此產生的高斯分布形成了一個圖像,即Splatter Image。我們進一步擴展了該方法,通過添加跨視圖關注,將多於一個圖像納入輸入。由於渲染器的速度(每秒588幀),我們可以在訓練時僅使用單個GPU,同時在每次迭代中生成整個圖像,以優化像LPIPS等感知指標。在標準基準測試中,我們不僅展示了快速重建,還在PSNR、LPIPS和其他指標方面取得了比最近且成本更高的基準線更好的結果。
最近,分割任務模型(Segment Anything Model,SAM)展現出強大的分割能力,在計算機視覺領域引起了廣泛關注。許多後續工作基於預訓練的SAM開發了各種應用,並在下游視覺任務上取得了令人印象深刻的表現。然而,SAM包含複雜的結構,需要大量計算資源,這阻礙了SAM在計算受限邊緣設備上的進一步應用。因此,在本文中,我們提出了一個框架來獲得一個微型分割任務模型(TinySAM),同時保持強大的零樣本性能。我們首先提出了一種全階段知識蒸餾方法,並結合在線硬提示採樣策略,以蒸餾出輕量級學生模型。我們還將後訓練量化應用於可提示的分割任務,進一步降低計算成本。此外,我們提出了一種分層分割策略,通過幾乎不降低性能的方式,將分割任務的推理加速2倍。通過所有這些提出的方法,我們的TinySAM實現了計算量的數量級降低,並為高效的分割任務開拓了新境界。對各種零樣本轉移任務的廣泛實驗表明,我們的TinySAM在性能上顯著優於對應的方法。預訓練模型和代碼將在以下鏈接提供:https://github.com/xinghaochen/TinySAM 和 https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM。
本研究介紹了一種名為快取Transformer的新型Transformer模型,該模型使用閘控循環快取(GRC)注意力來擴展自注意機制,具備可微分的記憶快取功能。GRC注意力使模型能夠關注過去和當前的標記,擴大了注意力的感知範圍,並允許探索長距離依賴性。通過利用循環閘控單元持續更新快取,我們的模型在六項語言和視覺任務中取得了顯著進展,包括語言建模、機器翻譯、ListOPs、圖像分類、物體檢測和實例分割。此外,我們的方法在語言建模等任務中超越了先前基於記憶的技術,並展現了應用於更廣泛情境的能力。
為了實現人類級的靈巧度,機器人必須從多模感知中推斷空間意識,以便推理接觸互動。在手中操作新物體時,這種空間意識包括估計物體的姿態和形狀。目前手中感知的現狀主要使用視覺,並限制於跟蹤事先已知的物體。此外,在操作過程中會出現對手中物體的視覺遮擋,這阻礙了當前系統在無遮擋的任務上取得進展。我們結合視覺和觸覺感知在多指手上,以估計手中操作過程中物體的姿態和形狀。我們的方法,NeuralFeels,通過在線學習神經場來編碼物體幾何形狀,並通過優化姿態圖問題來聯合跟蹤它。我們在模擬和現實世界中研究多模感知在手中操作中,通過基於本體感知驅動的策略與不同物體進行互動。我們的實驗顯示最終重建 F-分數為 81%,平均姿態漂移為 4.7 毫米,進一步減少到 2.3 毫米,當已知 CAD 模型時。此外,我們觀察到在嚴重的視覺遮擋下,與僅使用視覺方法相比,我們可以實現高達 94% 的跟蹤改進。我們的結果表明,觸覺至少可以優化視覺估計,在最好的情況下,可以在手中操作過程中消除歧義。我們釋出了我們的評估數據集 FeelSight,其中包含 70 個實驗,作為在該領域進行基準測試的一個步驟。我們基於多模感知的神經表示可以作為推進機器人靈巧度的感知基礎。有關視頻可在我們的項目網站 https://suddhu.github.io/neural-feels/ 上找到。
基於文字引導的擴散模型已經在圖像和視頻生成方面引起了革命,並且已成功應用於基於優化的3D物體合成。在這裡,我們專注於尚未深入研究的文本到4D設置,並使用得分蒸餾方法在額外的時間維度上合成動態的、動畫的3D物體。與先前的工作相比,我們採用了一種新穎的基於組合生成的方法,結合了文本到圖像、文本到視頻和3D感知多視圖擴散模型,以在4D物體優化過程中提供反饋,從而同時強制實現時間一致性、高質量的視覺外觀和逼真的幾何形狀。我們的方法名為"調整您的高斯函數"(AYG),利用動態3D高斯擴散與變形場作為4D表示。AYG的關鍵在於一種新穎的方法,用於正則化移動的3D高斯函數的分佈,從而穩定優化過程並誘導運動。我們還提出了一種運動放大機制,以及一種新的自回歸合成方案,用於生成和組合多個4D序列以進行更長時間的生成。這些技術使我們能夠合成生動的動態場景,從質量和量化上優於先前的工作,並實現了最先進的文本到4D性能。由於高斯4D表示,不同的4D動畫可以無縫組合,正如我們所展示的。AYG為動畫、模擬和數字內容創作以及合成數據生成開辟了有前途的途徑。
最近在生成式人工智慧方面取得的進展顯著增強了影像和影片編輯,特別是在文字提示控制的情境下。目前最先進的方法主要依賴擴散模型來完成這些任務。然而,基於擴散的方法在計算需求上相當龐大,通常需要大規模的配對數據集進行訓練,因此在實際應用中具有挑戰性。本研究通過將基於文字的影片編輯過程分解為兩個獨立階段來應對這一挑戰。在第一階段,我們利用現有的文字轉圖像擴散模型同時編輯少數關鍵幀而無需額外微調。在第二階段,我們引入了一個名為MaskINT的高效模型,該模型基於非自回歸遮罩式生成式轉換器構建,專門用於關鍵幀之間的幀內插,並受益於中間幀提供的結構引導。我們全面的一系列實驗展示了MaskINT相對於其他基於擴散的方法論的有效性和效率。這項研究提供了一個針對基於文字的影片編輯的實際解決方案,展示了非自回歸遮罩式生成式轉換器在該領域的潛力。
在人工智慧研究中,對於大型語言模型(LLMs)的優化仍然是一個重大挑戰,對於推進該領域的實際應用和可持續性至關重要。本文基於麻省理工學院韓松教授實驗室的基礎工作,介紹了一種通過上下文修剪來開發Mini-GPTs的新方法。我們的方法有策略性地修剪傳統LLMs(如Phi-1.5)的計算架構,著重於保留核心功能,同時大幅減小模型大小。我們在包括美國法律、醫學問答、《上古卷軸》對話、英翻台翻譯和經濟文章在內的各種複雜數據集上應用了這一技術。結果凸顯了上下文修剪的效率和有效性,不僅僅是一個理論概念,而是一個在開發特定領域專用、資源高效的LLMs中的實用工具。上下文修剪是構建特定領域LLMs的一種有前途的方法,這項研究是未來發展的一個基礎,將會有更多硬體運算、精細調整和量化。
本文從推理效率的角度全面研究了在文本條件擴散模型中分類器自由引導(CFG)的作用。具體而言,我們放寬了在所有擴散步驟中應用CFG的默認選擇,而是尋找高效引導策略。我們在可微分神經架構搜索框架中制定了發現此類策略的方法。我們的研究結果表明,CFG提出的去噪步驟越來越與簡單的條件步驟保持一致,這使得CFG的額外神經網絡評估在去噪過程的後半部分特別是多餘的。基於這一見解,我們提出了“自適應引導”(AG),這是CFG的一種高效變體,當去噪過程顯示收斂時,自適應地省略網絡評估。我們的實驗表明,AG在減少計算量的同時保留了CFG的圖像質量,計算節省了25%。因此,AG是Guidance Distillation的即插即用替代方案,實現了後者的50%加速,同時無需訓練,並保留處理負提示的能力。最後,我們揭示了CFG在擴散過程的前半部分進一步冗餘,顯示整個神經功能評估可以被過去分數估計的簡單仿射變換所取代。這稱為LinearAG的方法提供了更便宜的推理,但與基準模型有所偏離。我們的研究結果揭示了條件去噪過程效率的見解,有助於更實用和迅速部署文本條件擴散模型。
神經3D場景表示已展現出從2D影像重建3D的巨大潛力。然而,復雜場景的真實世界捕獲重建仍然是一個挑戰。現有的通用3D重建方法通常難以表現精細的幾何細節,並且未能充分建模大型場景的反射表面。專注於反射表面的技術可以通過更好的反射參數化來建模複雜和詳細的反射。然而,我們觀察到這些方法在現實中存在非反射和反射組成的無界場景時通常不夠穩健。在這項工作中,我們提出了UniSDF,一種通用的3D重建方法,可以重建具有反射的大型複雜場景。我們研究了基於視圖和基於反射的顏色預測參數化技術,並發現在3D空間中明確地混合這些表示可以實現更加幾何精確的表面重建,尤其是對於反射表面。我們進一步將這種表示與以粗到細的方式訓練的多分辨率網格骨幹結合,實現比先前方法更快的重建速度。對DTU、Shiny Blender等對象級數據集以及無界數據集Mip-NeRF 360和Ref-NeRF real進行了大量實驗,證明我們的方法能夠穩健地重建具有精細細節和反射表面的複雜大型場景。請參閱我們的項目頁面:https://fangjinhuawang.github.io/UniSDF。
神經輻射場在建模3D場景外觀方面取得了顯著的表現。然而,現有方法仍然在處理具有光澤表面的視角相依外觀方面存在困難,特別是在室內環境的複雜照明下。與現有方法不同,通常假設遠程照明(如環境貼圖),我們提出了可學習的高斯方向編碼,以更好地模擬近場照明條件下的視角相依效應。重要的是,我們的新方向編碼捕捉了近場照明的空間變化特性,並模擬了預過濾環境貼圖的行為。因此,它能夠有效地評估在具有不同粗糙度係數的任何3D位置處的預卷積鏡面顏色。我們進一步引入了一種數據驅動的幾何先驗,有助於緩解反射建模中的形狀輻射歧義。我們展示了我們的高斯方向編碼和幾何先驗顯著改善了神經輻射場中具有挑戰性的鏡面反射建模,有助於將外觀分解為更具物理意義的組件。
利用深度神經網絡(DNNs)從觀察中學習預測模型是許多現實世界規劃和控制問題的一種有前途的新方法。然而,普通的DNNs對於有效的規劃來說過於無結構,當前的控制方法通常依賴於廣泛的採樣或局部梯度下降。在本文中,我們提出了一個新的整合模型學習和預測控制的框架,適合於高效的優化算法。具體而言,我們從系統動態的ReLU神經模型開始,並通過去除多餘的神經元逐漸使其稀疏化,從而在預測準確性上損失最小。這種離散的稀疏化過程被近似為一個連續問題,實現了模型架構和權重參數的端到端優化。稀疏化模型隨後被一個混合整數預測控制器使用,該控制器將神經元激活表示為二進制變量並採用高效的分支定界算法。我們的框架適用於各種DNNs,從簡單的多層感知器到複雜的圖神經動態。它可以有效處理涉及複雜接觸動力學的任務,例如物體推動、組合物體排序和可變形物體的操作。數值和硬體實驗表明,儘管進行了積極的稀疏化,我們的框架可以提供比現有最先進方法更好的閉環性能。
最近常見的一種將單張圖像轉換為3D的方法通常採用得分蒸餾取樣(SDS)。儘管取得了令人印象深刻的結果,但存在著多個缺陷,包括多視圖不一致、過飽和和過平滑的紋理,以及生成速度緩慢等問題。為了解決這些缺陷,我們提出了Repaint123,以減輕多視圖偏差、紋理降解並加快生成過程。其核心思想是結合2D擴散模型的強大圖像生成能力和重新繪製策略的紋理對齊能力,生成具有一致性的高質量多視圖圖像。我們進一步提出了可視性感知自適應重新繪製強度,用於增強重新繪製過程中重疊區域的生成圖像質量。生成的高質量和多視圖一致的圖像使得可以使用簡單的均方誤差(MSE)損失進行快速3D內容生成。我們進行了大量實驗,並展示了我們的方法在2分鐘內從頭開始生成具有高質量、多視圖一致性和精細紋理的3D內容的卓越能力。代碼位於https://github.com/junwuzhang19/repaint123。
生物醫學影像數據集通常規模較小且存在偏差,這意味著預測模型的真實世界性能可能遠低於內部測試所預期的。本研究提出使用生成式圖像編輯來模擬數據集變化,並診斷生物醫學視覺模型的失敗模式;這可在部署前使用以評估準備情況,潛在地降低成本和患者傷害。現有的編輯方法可能產生不良變化,由於疾病和治療干預的共同出現而學習到虛假相關性,限制了實際應用性。為解決這個問題,我們在多個胸部X光數據集上訓練了一個文本到圖像擴散模型,並引入了一種名為RadEdit的新編輯方法,該方法使用多個遮罩(如果存在)來限制變化,並確保編輯後的圖像一致性。我們考慮三種數據集變化類型:獲取變化、表現變化和人口變化,並證明我們的方法可以診斷失敗並量化模型的穩健性,而無需額外的數據收集,這補充了更具解釋性的AI工具。