每日精選AI研究論文及翻譯
對比學習已經成為一種透過對齊圖像和文本嵌入來學習有效視覺表示的轉變性方法。然而,在圖像和文本對之間的對比損失中進行成對相似度計算存在著計算挑戰。本文提出了一種新穎的基於網絡規模圖像文本數據的弱監督預訓練視覺模型的方法。所提出的方法將圖像文本數據上的預訓練重新定義為一個分類任務。因此,它消除了對比損失中成對相似度計算的需要,實現了與在網絡規模數據上進行對比學習相比訓練速度顯著提高了2.7倍。通過廣泛的實驗涵蓋各種視覺任務,包括檢測和分割,我們證明了所提出的方法保持了高表示質量。我們的源代碼以及預先訓練的模型權重和訓練配方可在https://github.com/apple/corenet 上找到。
我們提出了一種全新的無調整ID定制方法,稱為Pure and Lightning ID customization (PuLID),專為文本到圖像生成而設。通過將Lightning T2I分支與標準擴散分支結合,PuLID引入了對比對齊損失和準確的ID損失,從而最小化對原始模型的干擾,確保高度ID保真度。實驗表明,PuLID在ID保真度和可編輯性方面均表現優異。PuLID的另一個吸引人之處在於,在ID插入前後,圖像元素(例如背景、燈光、構圖和風格)被保持盡可能一致。代碼和模型將可在以下網址獲得:https://github.com/ToTheBeginning/PuLID
對比語言-圖像預訓練(CLIP)的成功取決於從圖像和標題之間的配對中獲得的監督,而這在網絡抓取的數據中往往存在噪音。我們提出了數據專家混合(MoDE),通過聚類學習了一個CLIP數據專家系統。每個數據專家在一個數據集群上接受訓練,對其他集群中的偽陰性噪音不太敏感。在推斷時,我們通過應用由任務元數據和集群條件之間的相關性確定的權重來集成它們的輸出。為了準確估計相關性,一個集群中的樣本應該在語義上相似,但數據專家的數量仍應適合訓練和推斷。因此,我們考慮了人類語言中的本體論,並建議使用細粒度集群中心來代表每個數據專家在粗粒度水平上。實驗研究表明,ViT-B/16上的四個CLIP數據專家在零樣本圖像分類方面優於OpenAI CLIP和OpenCLIP上的ViT-L/14,但訓練成本較低(<35%)。同時,MoDE可以異步訓練所有數據專家,並可以靈活地包含新的數據專家。代碼可在https://github.com/facebookresearch/MetaCLIP/tree/main/mode找到。
擴散模型的快速發展引發了各種應用。特別是保持身份的文本到圖像生成(ID-T2I)因其廣泛的應用場景,如人工智慧肖像和廣告,而受到重視。儘管現有的ID-T2I方法展示了令人印象深刻的結果,但仍存在幾個關鍵挑戰:(1)很難準確保持參考肖像的身份特徵,(2)生成的圖像缺乏美感,尤其在強調身份保留時,以及(3)存在無法同時兼容LoRA和Adapter方法的限制。為了應對這些問題,我們提出了ID-Aligner,一個通用的反饋學習框架,以增強ID-T2I的性能。為了解決丟失的身份特徵,我們引入身份一致性獎勵微調,利用來自人臉檢測和識別模型的反饋來改善生成的身份保留。此外,我們提出了身份美感獎勵微調,利用來自人類注釋的偏好數據和自動構建的角色結構生成反饋,提供美感微調信號。由於其通用的反饋微調框架,我們的方法可以輕鬆應用於LoRA和Adapter模型,實現一致的性能增益。對SD1.5和SDXL擴散模型的大量實驗驗證了我們方法的有效性。項目頁面:\url{https://idaligner.github.io/}
擴散模型的出現極大地推動了影像和視頻生成的進展。最近,一些工作致力於可控視頻生成,包括文本到視頻生成和視頻運動控制,其中攝像機運動控制是一個重要話題。然而,現有的攝像機運動控制方法依賴於訓練一個時間攝像機模塊,並且由於視頻生成模型中的大量參數,需要大量的計算資源。此外,現有方法在訓練期間預先定義攝像機運動類型,這限制了它們在攝像機控制方面的靈活性。因此,為了降低訓練成本並實現靈活的攝像機控制,我們提出了COMD,一種新穎的無需訓練的視頻運動轉移模型,它將來源視頻中的攝像機運動和物體運動分離開來,並將提取的攝像機運動轉移到新視頻中。我們首先提出了一種一次攝像機運動分離方法,從單個來源視頻中提取攝像機運動,將移動物體與背景分開,並根據背景中的運動通過解決泊松方程來估計移動物體區域中的攝像機運動。此外,我們提出了一種少數次攝像機運動分離方法,從具有相似攝像機運動的多個視頻中提取共同的攝像機運動,該方法利用基於窗口的聚類技術從多個視頻的時間注意力圖中提取共同特徵。最後,我們提出了一種運動組合方法,將不同類型的攝像機運動結合在一起,使我們的模型具有更可控和靈活的攝像機控制。大量實驗表明,我們的無需訓練方法可以有效地解耦攝像機-物體運動並將解耦的攝像機運動應用於各種可控視頻生成任務,實現靈活和多樣化的攝像機運動控制。
擴散模型在文本引導的合成任務中取得了顯著進展。然而,編輯用戶提供的圖像仍然具有挑戰性,因為擴散模型的高維噪音輸入空間並不自然適合圖像反轉或空間編輯。在這項工作中,我們提出了一種圖像表示,促進了使用擴散模型進行輸入圖像的空間編輯。具體而言,我們學習將輸入編碼為能夠忠實重建輸入圖像的「圖像元素」。這些元素可以直觀地由用戶進行編輯,並由擴散模型解碼為逼真的圖像。我們展示了我們的表示在各種圖像編輯任務上的有效性,例如對象調整大小、重新排列、拖曳、去遮擋、去除、變化和圖像合成。專案頁面:https://jitengmu.github.io/Editable_Image_Elements/
人像抠图是圖像和視頻處理中的基礎任務,用於從輸入中提取人類前景像素。先前的研究要麼通過額外引導來提高準確性,要麼通過改進單個實例在幀間的時間一致性。我們提出了一個新的框架 MaGGIe,即 Masked Guided Gradual Human Instance Matting,它為每個人像實例逐步預測 alpha 抠圖,同時保持計算成本、精度和一致性。我們的方法利用現代架構,包括 transformer 注意力和稀疏卷積,以在不爆炸記憶體和延遲的情況下同時輸出所有實例抠圖。儘管在多實例情況下保持恆定的推理成本,我們的框架在我們提出的合成基準測試中實現了強大且多才多藝的性能。通過更高質量的圖像和視頻抠圖基準測試,從公開可用來源引入了新穎的多實例綜合方法,以增加模型在現實場景中的泛化能力。
推測式解碼已成為提高大型語言模型主機的延遲和吞吐量的強大方法。然而,大多數現有的實現專注於生成單個序列。現實世界中的生成式人工智慧應用通常需要多個回應,如何在批處理環境中執行推測式解碼,同時保持其延遲效益,構成了一個非常困難的挑戰。本文描述了一種批次推測式解碼系統,該系統在多序列生成延遲方面設立了一個新的技術水準,並展示了優越的GPU利用率以及在時間預算內生成的質量。例如,對於單個A100 GPU上的7.8B規模模型,批次大小為8,每個序列的平均生成速度為每個標記5.8毫秒,總吞吐量為每秒1.1K個標記。這些結果代表了最先進的延遲和比優化的常規解碼快2.15倍。在常規解碼無法完成的時間預算內,我們的系統能夠生成具有43%的HumanEval Pass@First和61%的Pass@All的序列,遠超過單序列推測式解碼的可行性。我們在解碼期間的GPU利用率高達15.8%,是常規解碼的最高值的3倍以上,是單序列推測式解碼的約10倍。
在上下文學習(ICL)方法中,通常利用提示來條件化僅使用解碼器的語言模型生成參考資訊。由於自注意力操作的二次成本,對上下文進行即時處理效率低下,因此緩存變得更為理想。然而,緩存變換器狀態很容易需要的空間幾乎與模型參數一樣多。當事先不知道正確上下文時,對ICL進行緩存可能會面臨挑戰。本研究通過引入受到編碼器-解碼器架構啟發的模型,解決了這些限制,該模型使用交叉注意力來條件化生成參考文本,而無需提示。更確切地說,我們利用預訓練的僅解碼器模型,僅訓練了少量添加的層。我們使用問答(QA)作為評估我們模型執行條件生成能力的基準,並觀察到它們優於ICL,與微調提示的LLM相當,並且相對於標準KV緩存大幅減少了空間佔用量,降低了兩個數量級。