每日精選AI研究論文及翻譯
在自然文件上訓練的大型多模型模型,交錯使用圖像和文本,比在圖像-文本對上訓練的模型在各種多模基準測試中表現更好。然而,用於訓練這些模型的數據集尚未公開,且收集過程尚未完全明確。我們介紹了OBELICS數據集,這是一個開放的網絡規模篩選數據集,包括從Common Crawl提取的1.41億個網頁、3.53億個相關圖像和1150億個文本標記。我們描述了數據集創建過程,提出了全面的篩選規則,並對數據集的內容進行了分析。為了展示OBELICS的可行性,我們訓練了9和80億參數的視覺和語言模型,名為IDEFICS,在不同的多模基準測試中取得了競爭性表現。我們公開了我們的數據集、模型和代碼。
單張圖像的3D重建是一項重要但具有挑戰性的任務,需要對我們自然世界有廣泛的了解。許多現有方法通過在2D擴散模型的指導下優化神經輻射場來解決這個問題,但存在優化時間長、3D不一致結果和幾何不佳等問題。在這項工作中,我們提出了一種新方法,它以任何物體的單張圖像作為輸入,並在單次前向傳遞中生成完整的360度3D紋理網格。給定一張圖像,我們首先使用一個視圖條件的2D擴散模型Zero123,為輸入視圖生成多視圖圖像,然後旨在將它們提升到3D空間。由於傳統的重建方法難以應對不一致的多視圖預測,我們基於基於SDF的通用神經表面重建方法構建了我們的3D重建模塊,並提出了幾個關鍵的訓練策略,以實現360度網格的重建。在沒有昂貴優化的情況下,我們的方法比現有方法更快地重建3D形狀。此外,我們的方法偏好更好的幾何形狀,生成更具3D一致性的結果,並更貼近輸入圖像。我們在合成數據和野外圖像上評估了我們的方法,並展示了其在網格質量和運行時間方面的優越性。此外,我們的方法可以通過與現成的文本到圖像擴散模型集成,無縫支持文本到3D任務。
本文介紹了DreamDiffusion,一種從腦電圖(EEG)信號直接生成高質量圖像的新方法,無需將思維轉換為文本。DreamDiffusion利用預先訓練的文本到圖像模型,並採用時間遮罩信號建模來預先訓練EEG編碼器以獲得有效且穩健的EEG表示。此外,該方法進一步利用CLIP圖像編碼器提供額外監督,以更好地對齊EEG、文本和圖像嵌入,並在有限的EEG-圖像對中取得更好的結果。總的來說,所提出的方法克服了使用EEG信號進行圖像生成時的挑戰,如噪音、信息有限和個體差異,並取得了令人期待的結果。定量和定性結果顯示所提出的方法作為實現可攜式和低成本“思維到圖像”的重要一步,具有潛在的應用於神經科學和計算機視覺。
基於其在不同領域的廣泛應用性,文本到圖像擴散模型引起了相當大的興趣。然而,在創建可控模型以進行個性化物體生成方面仍存在挑戰。本文首先識別現有個性化生成模型中的糾纏問題,然後提出了一種直接且高效的數據擴增訓練策略,引導擴散模型僅專注於物體身份。通過從預先訓練的可控擴散模型中插入即插即用的適配器層,我們的模型獲得了控制每個生成的個性化物體的位置和大小的能力。在推斷過程中,我們提出了一種區域引導的取樣技術,以保持生成圖像的質量和保真度。我們的方法實現了個性化物體的可比或更高的保真度,產生出一個堅固、多功能且可控的文本到圖像擴散模型,能夠生成逼真且個性化的圖像。我們的方法展示了在藝術、娛樂和廣告設計等各種應用中的重要潛力。
我們提出了一種新穎的對齊-生成方法,以應對基於2D圖像或文本生成通用3D形狀的具有挑戰性任務。直接從圖像或文本到3D形狀學習條件生成模型容易產生與條件不一致的結果,因為3D形狀具有一個額外的維度,其分佈與2D圖像和文本顯著不同。為了彌合三種模態之間的領域差異,並促進多模態條件下的3D形狀生成,我們探索在一個形狀-圖像-文本對齊空間中表示3D形狀。我們的框架包括兩個模型:一個形狀-圖像-文本對齊變分自編碼器(SITA-VAE)和一個條件對齊形狀潛在擴散模型(ASLDM)。前者將3D形狀編碼為與圖像和文本對齊的形狀潛在空間,並通過基於變壓器的解碼器重構對應於給定形狀嵌入的精紆3D神經場。後者從圖像或文本空間到潛在形狀空間學習概率映射函數。我們的大量實驗表明,我們提出的方法可以生成更高質量和更多樣化的3D形狀,更好地語義地符合視覺或文本條件輸入,驗證了形狀-圖像-文本對齊空間對跨模態3D形狀生成的有效性。
預訓練大型語言模型(PLMs)是自然語言處理中大多數新發展的基礎。它們將該領域從特定應用模型流程轉變為適應多種任務的單一模型。像GPT-3或PaLM這樣的自回歸PLMs,再加上少樣本學習等技術,進一步將輸出模式從分類或回歸轉變為生成。儘管它們被廣泛使用,語言模型的生成質量很少在這些模型推出時進行評估。此外,現有的生成任務如何與人們一直在採用的真實用例相關,目前尚不清楚。在本研究中,我們討論如何將現有的特定應用生成基準適應於PLMs,並對PLMs在自然語言生成任務中的限制和能力進行深入的實證研究,涵蓋規模、架構、輸入和輸出語言等方面。我們的結果顯示,PLMs在不同數據範疇的適用性以及對多種語言的泛化能力存在差異,並提供了在特定生成任務設置中應使用哪些PLMs的信息。我們分享了在開發即將推出的PLMs時進行生成能力基準測試時應考慮的最佳實踐。
我們首次展示,僅使用合成數據訓練的神經網絡在解決從真實圖像中估計3D人體姿態和形狀(HPS)問題時實現了最先進的準確性。先前的合成數據集規模較小、不現實,或缺乏真實的服裝。實現足夠的真實感並非易事,我們展示了如何在運動中實現全身的真實感。具體來說,我們的BEDLAM數據集包含以SMPL-X格式呈現的單眼RGB視頻中的真實3D人體。它包含多種身體形狀、動作、膚色、頭髮和服裝。使用商業服裝物理模擬在移動的人體上逼真模擬服裝。我們在逼真場景中以不同的光線和相機運動渲染不同數量的人。然後,我們使用BEDLAM訓練各種HPS回歸器,在真實圖像基準上實現了最先進的準確性,儘管是使用合成數據進行訓練。我們使用BEDLAM來深入了解哪些模型設計選擇對準確性至關重要。通過良好的合成訓練數據,我們發現像HMR這樣的基本方法可以接近當前的最先進方法(CLIFF)的準確性。BEDLAM對各種任務都很有用,所有圖像、真實人體、3D服裝、支持代碼等均可供研究目的使用。此外,我們提供有關我們合成數據生成流程的詳細信息,使其他人能夠生成自己的數據集。請查看項目頁面:https://bedlam.is.tue.mpg.de/。
從視覺觀察中學習的動態模型已被證明在各種機器人操作任務中非常有效。學習這些動態模型的一個關鍵問題是使用什麼場景表示。先前的研究通常假設在固定維度或解析度上進行表示,這對於簡單任務可能效率低下,對於更複雜的任務則可能無效。在這項工作中,我們探討如何學習不同抽象層次的動態和自適應表示,以實現效率和有效性之間的最佳折衷。具體而言,我們構建了環境的動態解析度粒子表示,並使用圖神經網絡(GNNs)學習統一的動態模型,該模型允許連續選擇抽象層次。在測試時,代理可以在每個模型預測控制(MPC)步驟中自適應地確定最佳解析度。我們在物體堆疊操作中評估了我們的方法,這是我們在烹飪、農業、製造和製藥應用中常遇到的任務。通過在模擬和現實世界中進行全面評估,我們展示了我們的方法在收集、分類和重新分配由咖啡豆、杏仁、玉米等各種實例製成的顆粒狀物體堆疊方面比最先進的固定解析度基準表現顯著更好。
深度神經網絡(DNNs)已經在機器學習中變得無處不在,但它們的能源消耗仍然是一個顯著問題。降低供電電壓是減少能源消耗的有效策略。然而,過度降低供電電壓可能會導致準確性下降,這是由於靜態隨機存取記憶器(SRAM)中存儲模型參數的隨機位翻轉所導致的。為了應對這一挑戰,我們引入了NeuralFuse,這是一個新穎的附加模塊,通過學習輸入轉換來生成抗錯誤的數據表示,以解決低電壓範圍中準確性和能源之間的折衷。NeuralFuse在標準和低電壓情況下保護DNN的準確性。此外,NeuralFuse易於實施,並且可以輕鬆應用於訪問受限的DNN,如不可配置的硬件或遠程訪問基於雲的API。實驗結果表明,在1%的位錯誤率下,NeuralFuse可以將SRAM存儲器訪問能源降低高達24%,同時將準確性提高高達57%。據我們所知,這是第一個不依賴模型(即無需重新訓練模型)的方法,來解決低電壓引起的位錯誤。源代碼可在https://github.com/IBM/NeuralFuse 上找到。
我們介紹了 ArrayBot,這是一個分佈式操作系統,由一個 16x16 的垂直滑動支柱陣列和觸覺感測器組成,可以同時支撐、感知和操作桌面上的物體。為了實現通用的分佈式操作,我們利用強化學習 (RL) 演算法來自動發現控制策略。面對極度冗餘的操作,我們提出通過考慮空間局部操作區域和頻域中的低頻操作,來重塑動作空間。憑藉這種重塑的動作空間,我們訓練了可以僅通過觸覺觀察重新定位各種物體的 RL 智能體。令人驚訝的是,我們發現發現的策略不僅可以推廣到模擬器中看不見的物體形狀,還可以在不進行任何領域隨機化的情況下轉移到實體機器人上。利用部署的策略,我們展示了豐富的現實世界操作任務,展示了強化學習在 ArrayBot 上進行分佈式操作的巨大潛力。
近年來,基於Transformer的語言模型已成為自然語言處理任務的標準方法。然而,在工業應用中對吞吐量和延遲的嚴格要求限制了它們的應用。為了彌補這一差距,模型壓縮技術,如結構化剪枝,被用來提高推理效率。然而,大多數現有的神經網絡推理運行時缺乏對結構化稀疏性的充分支持。在本文中,我們提出了一個高效的稀疏深度學習推理軟件堆棧,適用於基於Transformer的語言模型,其中權重被以恆定塊大小進行剪枝。我們的稀疏軟件加速器利用Intel Deep Learning Boost來最大化在CPU上的稀疏矩陣-稠密矩陣乘法(通常縮寫為SpMM)的性能。我們的SpMM核心在5個代表性稀疏率(70%、75%、80%、85%、90%)下的廣泛範圍的GEMM形狀上,優於現有的稀疏庫(oneMKL、TVM和LIBXSMM)一個數量級。此外,我們的SpMM核心在廣泛應用於工業的優化稠密庫oneDNN的密集GEMM核心上實現了高達5倍的加速。我們將我們的稀疏加速器應用於廣泛使用的Transformer-based語言模型,包括Bert-Mini、DistilBERT、Bert-Base和BERT-Large。我們的稀疏推理軟件在Amazon Web Services的Xeon上,在代理生產延遲約束條件下,與Neural Magic的Deepsparse相比,實現了高達1.5倍的加速。我們還將我們的解決方案與兩種基於框架的推理解決方案,ONNX Runtime和PyTorch進行比較,並在Xeon上在延遲約束條件下實現了高達37倍的加速,並且在PyTorch上實現了345倍的加速。所有源代碼都公開在Github上:https://github.com/intel/intel-extension-for-transformers。