每日精選AI研究論文及翻譯
隨著網上購物的增長,買家能夠在其環境中虛擬視覺化產品的能力,我們定義為「虛擬嘗試所有」,變得至關重要。最近的擴散模型本質上包含一個世界模型,使它們適用於在修補上下文中執行此任務。然而,傳統的圖像條件擴散模型通常無法捕捉產品的細節。相反,以個性化驅動的模型,如DreamPaint,在保留物品細節方面表現良好,但它們並未針對實時應用進行優化。我們提出了「擴散選擇」,這是一種新穎的基於擴散的圖像條件修補模型,它有效地平衡了快速推斷與在給定參考項目中保留高保真細節的能力,同時確保在給定場景內容中進行準確的語義操作。我們的方法是基於將參考圖像的細節特徵直接合併到主擴散模型的潛在特徵圖中,並採用感知損失進一步保留參考項目的細節。我們對內部和公開可用數據集進行了廣泛測試,並展示了「擴散選擇」優於現有的零樣本擴散修補方法,以及像DreamPaint這樣的少樣本擴散個性化算法。
大型語言模型的快速發展已經在軟體開發中的程式碼智能方面帶來了革命。然而,封閉源模型的佔主導地位限制了廣泛的研究和開發。為了解決這個問題,我們介紹了DeepSeek-Coder系列,這是一系列開源程式碼模型,大小從13億到330億不等,從頭開始在兩兆標記上進行訓練。這些模型在高質量的專案級程式碼語料庫上進行了預訓練,並採用了一個16K窗口的填空任務來增強程式碼生成和填充。我們的廣泛評估表明,DeepSeek-Coder不僅在多個基準測試中實現了開源程式碼模型的最新性能,而且超越了現有的封閉源模型,如Codex和GPT-3.5。此外,DeepSeek-Coder模型採用寬鬆許可證,允許進行研究和無限制的商業使用。
在這份研究中,我們重新檢視遮罩式自編碼器(MAE)解碼機制中的區塊間依賴性。我們將MAE中用於遮罩區塊重建的解碼機制分解為自注意力和交叉注意力。我們的研究表明,遮罩區塊之間的自注意力對於學習良好的表示並非必要。因此,我們提出了一個新的預訓練框架:交叉注意力遮罩式自編碼器(CrossMAE)。CrossMAE的解碼器僅利用遮罩和可見標記之間的交叉注意力,而在下游性能上沒有降級。這種設計還可以僅解碼一小部分遮罩標記,提高效率。此外,每個解碼器塊現在可以利用不同的編碼器特徵,從而改善表示學習。CrossMAE在解碼計算量減少2.5至3.7倍的情況下與MAE的性能相當。它還在ImageNet分類和COCO實例分割任務中超越了MAE,並使用相同計算量。代碼和模型:https://crossmae.github.io
在生成式自然語言處理領域的動態格局中,傳統的文本處理流程限制了研究的靈活性和可重現性,因為它們是針對特定數據集、任務和模型組合而設計的。不斷升級的複雜性涉及系統提示、特定於模型的格式、指令等,呼籲轉向結構化、模塊化和可定制的解決方案。為了滿足這一需求,我們提出了 Unitxt,這是一個創新的庫,專為生成式語言模型量身定制的文本數據準備和評估而設計。Unitxt 與 HuggingFace 和 LM-eval-harness 等常見庫進行本地集成,並將處理流程拆分為模塊化組件,從而實現了易於定制和共享。這些組件涵蓋了特定於模型的格式、任務提示以及許多其他全面的數據集處理定義。Unitxt-Catalog 將這些組件集中在一起,促進了現代文本數據流程中的協作和探索。Unitxt 不僅僅是一個工具,更是一個社區驅動的平台,讓用戶可以共同構建、共享和推進他們的流程。加入 Unitxt 社區,請訪問 https://github.com/IBM/unitxt!
六位元量化(FP6)可以有效地減小大型語言模型(LLMs)的大小,並在各種應用中持續保持模型品質。然而,現有系統並未提供對於FP6量化的Tensor Core支援,並且在LLM推論過程中難以實現實際性能改進。在GPU上支援FP6量化具有挑戰性,原因在於(1)模型權重的記憶體存取不友好,具有不規則的位元寬度,以及(2)權重反量化的高運行時開銷。為解決這些問題,我們提出了TC-FPx,這是第一個具有統一Tensor Core支援浮點權重的全套GPU核心設計方案,適用於各種量化位元寬度。我們將TC-FPx核心整合到現有的推論系統中,提供新的端對端支援(稱為FP6-LLM)以進行量化的LLM推論,實現推論成本和模型品質之間更好的折衷。實驗顯示,FP6-LLM使得僅使用單個GPU即可進行LLaMA-70b的推論,實現比FP16基準更高1.69倍至2.65倍的歸一化推論吞吐量。源代碼將很快公開提供。
在這項研究中,我們探討了最初用於圖像生成的去噪擴散模型(DDM)的表示學習能力。我們的理念是將 DDM 解構,逐步轉變為經典的去噪自編碼器(DAE)。這種解構性程序使我們能夠探索現代 DDM 的各個組件如何影響自監督表示學習。我們觀察到,只有很少數的現代組件對於學習良好的表示是至關重要的,而許多其他組件則是非必要的。我們的研究最終提出了一種高度簡化且在很大程度上類似於經典 DAE 的方法。我們希望我們的研究能重新引起人們對現代自監督學習領域內一系列經典方法的興趣。
我們提議通過來自其他模態的無關數據來改進特定模態的Transformer,例如,使用音頻或點雲數據集來改進ImageNet模型。我們希望強調目標模態的數據樣本與其他模態無關,這將我們的方法與利用配對數據(例如CLIP)或不同模態的交錯數據的其他作品區分開來。我們提出了一種名為多模態通道的方法 - 针对目标模态和设计用于其的Transformer,我们使用另一模态数据訓練的輔助Transformer,并構建路径來連接兩個模型的組件,以便目標模態的數據可以被兩個模型處理。通過這種方式,我們利用了從兩個模態獲得的Transformer的通用序列到序列建模能力。作為具體實現,我們通常使用特定模態的標記器和任務特定的頭部,但通過一種名為跨模態重新參數化的方法利用輔助模型的Transformer塊,該方法利用輔助權重而無需任何推理成本。在圖像、點雲、視頻和音頻識別任務中,我們觀察到使用來自其他模態的無關數據會帶來顯著且一致的性能改善。代碼和模型可在https://github.com/AILab-CVC/M2PT找到。
在家庭等開放式非結構環境中部署機器人一直是一個長期存在的研究問題。然而,機器人通常只在封閉的實驗室環境中進行研究,以前的移動操作工作僅限於拾取-移動-放置,這在這個領域中僅僅是冰山一角。在本文中,我們介紹了開放世界移動操作系統,這是一種全棧方法,用於應對現實中的關節對象操作,例如現實世界中的門、櫥櫃、抽屜和冰箱等開放式非結構環境。機器人利用適應性學習框架,從一小組數據中通過行為克隆進行初始學習,然後通過對超出訓練分佈範圍的新對象進行在線實踐學習。我們還開發了一種低成本的移動操作硬件平台,能夠在非結構環境中進行安全和自主的在線適應,成本約為20,000美元。在我們的實驗中,我們在CMU校園的4棟建築中使用了20個可操作的對象。對於每個對象,僅需不到一小時的在線學習,系統就能將成功率從BC預訓練的50%提高到使用在線適應的95%。視頻結果請參見https://open-world-mobilemanip.github.io/
我們介紹了 pix2gestalt,一個用於零樣本非物體分割的框架,該框架學習估計僅部分可見並被遮擋的整個物體的形狀和外觀。通過利用大規模擴散模型並將它們的表示轉移到這個任務中,我們學習了一個條件擴散模型,用於在具有挑戰性的零樣本情況下重建整個物體,包括打破自然和物理先驗的示例,如藝術品。作為訓練數據,我們使用了一個經過合成精心策劃的數據集,其中包含被遮擋的物體與它們的整體對應物。實驗表明,我們的方法在已建立的基準測試中優於監督基準。此外,我們的模型還可以用於顯著提高現有物體識別和三維重建方法在存在遮擋情況下的性能。
對於與內容相關的生成任務而言,缺乏高質量數據已被識別為推動這些任務的一個主要障礙。為了解決這一問題,我們提出了Genie,一種新穎的方法,用於自動生成高質量的與內容相關的數據。它包括三個階段:(a) 內容準備,(b) 生成:從內容中創建任務特定的示例(例如問答對或摘要),(c) 過濾機制,旨在確保生成數據的質量和忠實度。我們通過生成三個大規模的合成數據,即願望,展示了這種方法論的應用範例,用於長文問答(LFQA)、摘要和信息提取。在人類評估中,我們生成的數據被認為自然且高質量。此外,我們將在我們的數據上訓練的模型與在人類編寫的數據上訓練的模型進行比較--對於LFQA是ELI5和ASQA,對於摘要是CNN-DailyMail。我們展示了我們的模型與在人類生成數據上訓練的模型不相上下,甚至在忠實度上始終優於它們。最後,我們應用我們的方法在醫學領域內創建LFQA數據,並將在此數據上訓練的模型與在其他領域上訓練的模型進行比較。