每日精選AI研究論文及翻譯
大型語言模型(LLMs)是現代自然語言處理的核心,在各種任務中表現出色。然而,它們龐大的計算和記憶體需求帶來挑戰,尤其對於記憶體有限的設備而言更是如此。本文解決了運行超出可用DRAM容量的LLMs的效率挑戰,方法是將模型參數存儲在快閃記憶體中,並按需將其帶入DRAM。我們的方法包括構建一個與快閃記憶體行為協調的推理成本模型,引導我們優化兩個關鍵領域:減少從快閃記憶體傳輸的數據量,以及以更大、更連續的塊讀取數據。在這個快閃記憶體資訊框架中,我們引入了兩個主要技術。首先,“窗口化”策略性地通過重複使用先前激活的神經元來減少數據傳輸,其次,“行列捆綁”根據快閃記憶體的順序數據訪問優勢,增加了從快閃記憶體讀取的數據塊大小。這些方法共同使得運行的模型大小可達可用DRAM容量的兩倍,與CPU和GPU中的單純加載方法相比,推理速度分別提高了4-5倍和20-25倍。我們整合了稀疏感知、上下文適應加載和面向硬件的設計,為在記憶體有限的設備上有效推理LLMs鋪平了道路。
可伸縮向量圖形(SVG)已成為現代圖像渲染應用中不可或缺的一部分,因為它們具有無限的解析度可伸縮性、多功能性和編輯能力。SVG在網頁開發和平面設計領域特別受歡迎。現有的使用深度學習進行SVG建模的方法通常難以生成複雜的SVG,僅限於需要大量處理和簡化的簡單SVG。本文介紹了StarVector,一種多模態SVG生成模型,有效地將代碼生成大型語言模型(CodeLLMs)和視覺模型整合在一起。我們的方法利用CLIP圖像編碼器從基於像素的圖像中提取視覺表示,然後通過適配器模塊將其轉換為視覺標記。這些視覺標記被預置到SVG標記嵌入中,並且該序列由StarCoder模型進行建模,使用下一個標記預測,有效地學習對齊視覺和代碼標記。這使StarVector能夠生成準確代表像素圖像的不受限制的SVG。為了評估StarVector的性能,我們提出了SVG-Bench,一個全面評估SVG方法的基準,涵蓋多個數據集和相關指標。在這個基準中,我們引入了新的數據集,包括SVG-Stack,一個大規模的現實世界SVG示例數據集,並將其用於預先訓練StarVector作為SVG的大型基礎模型。我們的結果顯示,相對於當前方法,StarVector在視覺質量和複雜性處理方面取得了顯著的提升,標誌著SVG生成技術的一個顯著進步。代碼和模型:https://github.com/joanrod/star-vector
從2D地標中提取3D結構和攝影機是整個計算機視覺學科的基石。傳統方法僅限於特定剛性物體,例如透視n點(PnP)問題,但深度學習擴展了我們重建各種對象類別(例如C3PDO和PAUL)的能力,對噪音、遮擋和透視失真具有韌性。然而,所有這些技術都受到建立3D訓練數據之間對應的基本需求的限制,從而顯著限制了它們對擁有豐富“非對應”3D數據的應用的效用。我們的方法利用變換器的固有置換等變性來管理每個3D數據實例中不同數量的點,抵禦遮擋,並推廣到未見過的類別。我們展示了在2D-3D提取任務基準測試中的最新性能。由於我們的方法可以跨越如此廣泛的結構類別進行訓練,我們將其簡單地稱為3D提取基礎模型(3D-LFM)-- 這是首創的。
大型語言模型(LLMs)處理視覺輸入的能力已經催生了通用視覺系統,通過指導調整統一各種視覺語言(VL)任務。然而,由於視覺領域中輸入輸出格式的巨大多樣性,現有的通用模型無法成功將分割和多圖像輸入與粗粒度任務成功整合到單一框架中。在這項工作中,我們介紹了 VistaLLM,這是一個強大的視覺系統,使用統一框架處理單張和多張輸入圖像上的粗粒度和細粒度 VL 任務。VistaLLM 使用指導圖像分詞器,通過任務描述篩選全局嵌入,從眾多圖像中提取壓縮和精煉特徵。此外,VistaLLM 使用梯度感知自適應採樣技術,將二元分割遮罩表示為序列,顯著改進了以前使用的均勻採樣方法。為了增強 VistaLLM 的所需功能,我們精心編輯了 CoinIt,一個包含 680 萬樣本的全面粗粒度到細粒度指導調整數據集。我們還通過引入一個新的任務 AttCoSeg(屬性級聯合分割)來解決多圖像基礎數據集的缺乏,這進一步提升了模型對多個輸入圖像的推理和基礎定位能力。在各種 V 和 VL 任務上進行的大量實驗表明,VistaLLM 的有效性,它在所有下游任務中都實現了與強基線一致的最新性能。我們的項目頁面位於 https://shramanpramanick.github.io/VistaLLM/。
我們提出了 HAAR,一種新的基於髮絲的生成模型,用於3D人類髮型。具體來說,根據文本輸入,HAAR生成可用作現代計算機圖形引擎中的生產級資產的3D髮型。當前基於人工智慧的生成模型利用強大的2D先驗來重建以點雲、網格或體積函數形式呈現的3D內容。然而,通過使用2D先驗,它們固有地僅限於恢復視覺部分。高度遮擋的髮結構無法用這些方法重建,它們僅模擬“外殼”,這不適用於基於物理的渲染或模擬流程。相反,我們提出了一種首個文本引導的生成方法,使用3D髮絲作為基礎表示。利用2D視覺問答(VQA)系統,我們自動標註從一小組藝術家創作的髮型生成的合成髮型模型。這使我們能夠訓練在共同髮型UV空間中運作的潛在擴散模型。在定性和定量研究中,我們展示了所提出模型的能力並將其與現有髮型生成方法進行比較。
非物感知是一種能力,能夠從部分可見性中理解完整的物體結構,這是一種基本技能,即使對於嬰兒也是如此。它的重要性延伸至應用領域,如自動駕駛,在那裡對於深度遮擋物體的清晰理解至關重要。然而,現代檢測和追踪算法通常忽略了這一關鍵能力,或許是因為大多數數據集中普遍存在的物感標註。為了解決非物感知數據的稀缺性,我們引入了TAO-非物感知基準,其中包含數千個視頻序列中的880個多樣類別。我們的數據集包括可見和遮擋物體的非物和物邊界框,包括部分超出畫面的物體。為了通過數據擴增在幾百個視頻序列上微調,利用一個輕量級的插件模塊,即非物擴展器,來增強帶有物體恒常性的非物追踪。我們在TAO-非物感知上實現了檢測和追踪遮擋物體的3.3\%和1.6\%的改進。在對人進行評估時,我們的方法與最先進的物感基準相比,產生了2倍的顯著改進。
神經輻射場(Neural Radiance Field,NeRF)已成為新視角合成的領先技術,憑藉其令人印象深刻的照片逼真重建和渲染能力。然而,在大型場景中實現即時的 NeRF 渲染一直存在挑戰,通常需要採用要麼是包含大量三角形的複雜烘焙網格表示,要麼是資源密集的烘焙表示中的射線逐步。我們挑戰這些慣例,觀察到高質量幾何,用包含大量三角形的網格表示,對於實現照片逼真的渲染質量並非必要。因此,我們提出了 MixRT,一種新型的 NeRF 表示,包括低質量網格、視角相依位移圖和壓縮的 NeRF 模型。這種設計有效地利用現有圖形硬體的能力,從而實現了邊緣設備上的即時 NeRF 渲染。通過高度優化的基於 WebGL 的渲染框架,我們提出的 MixRT 在邊緣設備上實現了即時渲染速度(在 MacBook M1 Pro 筆記本電腦上以 1280 x 720 的分辨率超過 30 FPS),更好的渲染質量(在 Unbounded-360 數據集的室內場景中高出 0.2 PSNR),以及更小的存儲大小(與最先進的方法相比少於 80%)。
最近提出了超分辨率(SR)技術,用於提升神經輻射場(NeRF)的輸出並生成具有增強推論速度的高質量圖像。然而,現有的NeRF+SR方法通過使用額外的輸入特徵、損失函數和/或昂貴的訓練程序(如知識蒸餾)增加了訓練開銷。本文旨在利用SR實現效率提升,而無需昂貴的訓練或架構更改。具體而言,我們構建了一個簡單的NeRF+SR流程,直接結合現有模塊,並提出了一種輕量級的增強技術,即隨機補丁採樣,用於訓練。與現有的NeRF+SR方法相比,我們的流程減輕了SR計算開銷,訓練速度最多可提高23倍,使其能夠在蘋果MacBook等消費者設備上運行。實驗表明,我們的流程可以將NeRF輸出放大2-4倍,同時保持高質量,在NVIDIA V100 GPU上推理速度最多提高18倍,在M1 Pro芯片上提高12.8倍。我們得出結論,SR可以是一種簡單但有效的技術,用於提高NeRF模型在消費者設備上的效率。
本文提出了一種新穎的兩階段方法,充分利用參考圖像提供的信息,建立一個定制的知識先驗,用於從圖像生成3D。傳統方法主要依賴於一般性擴散先驗,難以與參考圖像產生一致的結果,我們提出了一種主題特定和多模態擴散模型。該模型不僅通過考慮用於改善幾何形狀的著色模式來幫助 NeRF 優化,還從粗糙結果中增強紋理以實現卓越的細化。這兩個方面有助於將3D內容與主題忠實地對齊。大量實驗展示了我們的方法「定制化3D」的優越性,明顯優於先前的作品。它能夠生成具有出色視覺質量的忠實360度重建,非常適用於各種應用,包括從文本生成3D。
影片是高度冗餘的資料來源,通常只需識別一些關鍵時刻即可解決任務。本文提出了一種文本條件下的影片重採樣器(TCR)模組,該模組使用預先訓練且凍結的視覺編碼器和大型語言模型(LLM)來處理長影片序列以完成任務。TCR根據文本條件定位影片中的相關視覺特徵,並將其提供給LLM生成文本回應。由於其輕量級設計和使用交叉注意力,TCR可以一次處理超過100幀的影片,使模型能夠使用比先前作品更長的影片片段。我們的貢獻如下:(i)我們設計了一種基於Transformer的採樣架構,可以根據任務處理長影片,並提供一種訓練方法,使其能夠連接預先訓練的視覺和語言模型;(ii)我們在廣泛的評估任務上實證了其有效性,並在NextQA、EgoSchema和EGO4D-LTA挑戰賽上設立了新的最先進水準;(iii)我們確定了需要更長影片上下文的任務,因此可以有效地用於進一步評估長程影片模型。
基於文本驅動的擴散模型在各種圖像編輯任務中變得越來越受歡迎,包括修補、風格化和物體替換。然而,將這種語言-視覺範式應用於更細緻級別的圖像處理任務,如去噪、超分辨率、去模糊和壓縮失真去除,仍然是一個開放的研究問題。在本文中,我們開發了TIP,一個以文本驅動的圖像處理框架,利用自然語言作為用戶友好的界面來控制圖像修復過程。我們考慮文本信息在兩個維度上的能力。首先,我們使用與內容相關的提示來增強語義對齊,有效減輕修復結果中的身份模糊。其次,我們的方法是第一個支持通過基於語言的定量規範修復強度的細緻級指導的框架,無需明確的任務特定設計。此外,我們引入了一種新的融合機制,通過學習重新調整生成先驗,從而實現更好的修復保真度,擴展了現有的ControlNet架構。我們的大量實驗證明了TIP相對於現有技術的優越修復性能,同時提供了基於文本的控制靈活性,以控制修復效果。
本文介紹了一種新穎的主題建模方法,利用從向量量化變分自編碼器(VQ-VAE)中提取的潛在碼書,離散地封裝了預先訓練的嵌入,如預先訓練的語言模型中所包含的豐富信息。通過將潛在碼書和嵌入解釋為概念詞袋的新方法,我們提出了一種名為主題向量量化變分自編碼器(TVQ-VAE)的新生成主題模型,逆向生成與相應潛在碼書相關的原始文件。TVQ-VAE可以用各種生成分佈來視覺化主題,包括傳統的詞袋分佈和自回歸圖像生成。我們在文件分析和圖像生成方面的實驗結果表明,TVQ-VAE有效地捕捉了顯示數據集的潛在結構並支持靈活的文件生成形式。提出的TVQ-VAE的官方實現可在https://github.com/clovaai/TVQ-VAE找到。