每日精選AI研究論文及翻譯
去噪擴散概率模型(DDPMs)已顯示出對語音合成具有潛力的性能。然而,為了達到高樣本質量,需要大量的迭代步驟,這限制了推理速度。在增加取樣速度的同時保持樣本質量已成為一項具有挑戰性的任務。在本文中,我們提出了一種基於“一致性模型”的語音合成方法CoMoSpeech,通過單一擴散取樣步驟實現語音合成,同時實現高音頻質量。一致性約束被應用於從設計良好的基於擴散的教師模型中提煉一致性模型,最終在提煉的CoMoSpeech中產生出色的性能。我們的實驗表明,通過單一取樣步驟生成音頻錄製,CoMoSpeech在單個NVIDIA A100 GPU上的推理速度比實時快150倍以上,與FastSpeech2相當,使基於擴散取樣的語音合成真正實用。同時,在文本轉語音和歌聲合成的客觀和主觀評估中,提出的教師模型產生了最佳音頻質量,而基於單步取樣的CoMoSpeech實現了最佳推理速度,並具有比其他傳統多步擴散模型基線更好或相當的音頻質量。音頻樣本可在https://comospeech.github.io/上找到。
我們提出了區域感知開放詞彙視覺Transformer(RO-ViT)- 一種對比圖像-文本預訓練方法,以彌合圖像級預訓練和開放詞彙物體檢測之間的差距。在預訓練階段,我們建議隨機裁剪和調整位置嵌入的區域,而不是使用整個圖像的位置嵌入。這樣更好地配合了在檢測微調階段中區域級別使用位置嵌入的情況。此外,我們將對比學習中常見的softmax交叉熵損失替換為焦點損失,以更好地學習信息豐富但困難的示例。最後,我們利用最新的新物體提議技術來改善開放詞彙檢測的微調。我們在LVIS和COCO開放詞彙檢測基準以及零樣本轉移上對我們的完整模型進行評估。RO-ViT在LVIS上實現了32.1的AP_r,超越了最佳現有方法5.8個百分點,並具有競爭力的零樣本轉移檢測。令人驚訝的是,RO-ViT還改善了圖像級表示,並在COCO和Flickr圖像-文本檢索基準的12個指標中有9個達到了最新水平,勝過了具有更大模型的競爭方法。
受到預訓練和指導微調流程的推動,已經出現了可以解決各種語言領域任務的通用語言模型。然而,建立通用的視覺語言模型具有挑戰性,因為額外的視覺輸入引入了增加的任務差異。儘管視覺語言的預訓練已被廣泛研究,但視覺語言的指導微調仍相對較少被探討。在本文中,我們基於預訓練的BLIP-2模型對視覺語言的指導微調進行了系統和全面的研究。我們收集了廣泛的26個公開可用數據集,將它們轉換為指導微調格式,並將它們分為兩個集群,用於保留指導微調和保留零樣本評估。此外,我們引入了指導感知的視覺特徵提取,這是一種關鍵方法,使模型能夠提取針對給定指導的信息特徵。由此產生的InstructBLIP模型在所有13個保留的數據集上實現了最先進的零樣本性能,遠遠優於BLIP-2和更大的Flamingo。我們的模型在個別下游任務微調時也達到了最先進的性能(例如,在ScienceQA IMG上達到90.7%的準確率)。此外,我們在質量上展示了InstructBLIP相對於同時多模型的優勢。所有InstructBLIP模型均已在https://github.com/salesforce/LAVIS/tree/main/projects/instructblip上開源。
我們提出了一種新方法,利用預先訓練的文本到圖像擴散模型中封裝的先前知識,用於盲目超分辨率(SR)。具體來說,通過使用我們的時間感知編碼器,我們可以在不改變預先訓練的合成模型的情況下實現有希望的恢復結果,從而保留生成先驗並最小化訓練成本。為了補救擴散模型固有隨機性引起的保真度損失,我們引入了一個可控的特徵包裝模塊,允許用戶在推斷過程中通過簡單調整一個純量值來平衡質量和保真度。此外,我們開發了一種漸進聚合採樣策略,以克服預先訓練的擴散模型的固定尺寸限制,實現對任何尺寸的分辨率的適應。通過使用合成和真實世界基準的全面評估,我們的方法展示了其優越性,勝過當前最先進的方法。
視覺轉換器因其高模型能力而取得巨大成功。然而,其卓越表現伴隨著龐大的計算成本,使其不適用於實時應用。本文提出了一系列名為EfficientViT的高速視覺轉換器。我們發現現有轉換器模型的速度通常受到記憶體效率低下操作的限制,特別是在MHSA中的張量重塑和逐元素函數。因此,我們設計了一個新的構建模塊,採用三明治佈局,即在高效FFN層之間使用單個受記憶體限制的MHSA,從而提高記憶體效率並增強通道通信。此外,我們發現關注地圖在不同頭部之間存在高度相似性,導致計算冗余。為解決此問題,我們提出了一個級聯組關注模塊,將完整特徵的不同分割提供給關注頭部,這不僅節省了計算成本,還提高了關注多樣性。全面的實驗表明EfficientViT優於現有的高效模型,在速度和準確性之間取得了良好的折衷。例如,我們的EfficientViT-M5在準確性上超越了MobileNetV3-Large 1.9%,同時在Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分別提高了40.4%和45.2%。與最近的高效模型MobileViT-XXS相比,EfficientViT-M2在準確性上達到了1.8%的優越性,同時在GPU/CPU上運行速度分別提高了5.8倍/3.7倍,轉換為ONNX格式後速度提高了7.4倍。代碼和模型可在https://github.com/microsoft/Cream/tree/main/EfficientViT找到。
CLIP是第一個連接圖像和文字的基礎模型,已經在計算機視覺領域取得許多重大突破。然而,其相關的訓練成本過高,導致廣泛探索面臨重大障礙。本文提出一個驚人的發現,即CLIP訓練存在一個反比例尺定律,即使用較大的圖像/文字編碼器,可以應用較短的圖像/文字標記序列長度進行訓練。此外,我們展示了減少圖像/文字標記長度的策略在確定此尺度定律的質量方面發揮著至關重要的作用。 由於這一發現,我們能夠成功地使用學術資源來訓練CLIP。例如,在一台搭載A100 GPU 的八卡伺服器上,我們的CLIP模型在約2天內達到了63.2%的零樣本 top-1 ImageNet 準確率,在約3天內達到了67.8%,在約4天內達到了69.3%。通過降低與CLIP相關的計算障礙,我們希望能激發更多學術界在這一領域的研究。我們的程式碼可在 https://github.com/UCSC-VLAA/CLIPA 找到。
大型語言模型(LLMs)在多語言神經機器翻譯(MNMT)中展現出令人驚訝的良好性能,即使在沒有平行數據的情況下進行訓練。然而,儘管訓練數據量巨大,它們仍然在翻譯罕見詞彙方面遇到困難,特別是對於低資源語言。更糟糕的是,對於低資源語言,通常無法檢索相關示範以進行上下文學習,這限制了LLMs在翻譯方面的實際應用 - 我們應該如何緩解這個問題?為此,我們提出了一種新方法,稱為CoD,它通過多語言詞典鏈的先前知識來擴充LLMs的部分輸入詞彙,以引出LLMs的翻譯能力。廣泛的實驗表明,使用CoD擴充ChatGPT可以使MNMT的ChrF++分數大幅提高,最多可達13倍(從3.08增至42.63,用於西里爾文塞爾維亞語的英語)在FLORES-200完整開發測試集上。我們進一步展示了鏈接多語言詞典的重要性,以及CoD相對於低資源語言的少樣本示範的優越性。
判斷說明文字是否正確描述圖像的能力是視覺語言理解的關鍵部分。然而,最先進的模型常常會誤解細節的正確性,導致輸出錯誤,例如在生成的說明中產生幻覺物件或是組合推理不佳。在這項研究中,我們探索了一種名為Token-Level Confidence(TLC)的簡單但出乎意料地有效的方法來評估說明文字的正確性。具體來說,我們在圖像標註上微調視覺語言模型,將圖像和提議的說明輸入模型,並聚合代數或學習的單詞或序列的標記信心,以估計圖像說明的一致性。與預先訓練模型的序列級別分數相比,具有代數信心度量的TLC在SVO-Probes的動詞理解方面實現了10%的相對準確性改善,並在Winoground的組合推理中分別相對提高了37%和9%的圖像和群組分數,超越了先前的最先進技術。當有訓練數據時,學習的信心估計器提供了進一步改進的性能,將MS COCO Captions中的物件幻覺率相對降低了30%,超越了原始模型,創立了新的最先進技術。
大型語言模型(LLMs)展示了令人印象深刻的多語能力,但它們在不同語言之間的表現差異很大。在這項工作中,我們介紹了一種簡單而有效的方法,稱為跨語言思維提示(XLT),以系統性地提高LLMs的多語能力。具體而言,XLT是一個通用的模板提示,可以激發跨語言和邏輯推理能力,從而增強不同語言下的任務表現。我們對涉及推理、理解和生成任務的7個典型基準進行了全面評估,涵蓋了高資源和低資源語言。實驗結果表明,XLT不僅顯著提高了各種多語任務的表現,還顯著縮小了不同語言下每個任務的平均表現和最佳表現之間的差距。值得注意的是,XLT在算術推理和開放領域問答任務中帶來了超過10個平均改進點。
生成與視頻的視覺內容相襯的高質量音樂是一項具有挑戰性的任務。大多數現有的視覺條件音樂生成系統生成符號音樂數據,例如MIDI文件,而不是原始音頻波形。鑒於符號音樂數據的有限可用性,這些方法只能為少數樂器或特定類型的視覺輸入生成音樂。在本文中,我們提出了一種名為V2Meow的新方法,可以生成與各種視頻輸入類型的視覺語義相吻合的高質量音樂音頻。具體來說,所提出的音樂生成系統是一個多階段自回歸模型,該模型是通過與視頻幀配對的數百萬音樂音頻片段進行訓練的,這些片段是從野外音樂視頻中挖掘出來的,並且不涉及平行符號音樂數據。V2Meow能夠僅憑來自任意無聲視頻片段提取的預訓練視覺特徵來合成高保真度的音樂音頻波形,同時還允許通過支持文本提示以及視頻幀條件來對生成示例的音樂風格進行高級控制。通過定性和定量評估,我們展示了我們的模型在視覺-音頻對應和音頻質量方面優於幾個現有的音樂生成系統。
終身學習(LL)是自然語言處理模型持續學習新任務的重要能力。基於架構的方法被報導為LL模型的有效實現。然而,將先前的方法擴展到領域增量LL情境並不簡單,因為它們要麼需要在測試階段訪問任務身份,要麼無法處理來自未見任務的樣本。在本文中,我們提出了Diana:一個基於動態架構的終身學習模型,試圖通過增強提示的語言模型學習一系列任務。Diana使用四種層次組織的提示來捕獲不同粒度的知識。具體而言,我們將任務級提示用於捕獲特定任務的知識,以保持高LL性能並保持實例級提示以學習跨輸入樣本共享的知識,以提高模型的泛化性能。此外,我們專門為未見任務明確建模,並引入一組提示關鍵向量以促進任務之間的知識共享。大量實驗表明,Diana在處理未見任務方面優於最先進的LL模型。我們在https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana 上發布了代碼和數據。
大型語言模型(LLMs)已展示出在零樣本或少樣本方式下對新任務進行泛化的卓越能力。然而,LLMs在多大程度上能夠根據用戶先前的行為理解用戶偏好,仍是一個新興且尚不清晰的研究問題。傳統上,協同過濾(CF)一直是這些任務中最有效的方法,主要依賴大量的評分數據。相比之下,LLMs通常需要更少的數據,同時保持對每個項目(如電影或產品)的豐富世界知識。在本文中,我們對CF和LLMs在經典的用戶評分預測任務中進行了全面的研究,該任務涉及根據用戶過去的評分來預測用戶對候選項目的評分。我們研究了不同大小的LLMs,從250M到540B個參數,並評估它們在零樣本、少樣本和微調情況下的表現。我們進行了全面的分析,比較了LLMs和強大的CF方法之間的差異,發現零樣本LLMs落後於具有用戶互動數據訪問權限的傳統推薦模型,這表明用戶互動數據的重要性。然而,通過微調,LLMs僅使用少量訓練數據就實現了可比甚至更好的性能,展示了它們通過數據效率實現的潛力。
我們提出了一種基於物理的人形控制器,能夠在存在噪聲輸入(例如從視頻估計的姿勢或從語言生成的姿勢)和意外跌倒的情況下實現高保真度的動作模仿和容錯行為。我們的控制器能夠擴展到學習一萬個運動片段,而無需使用任何外部穩定力,並學會自然地從失敗狀態中恢復。在核心層面上,我們提出了漸進式乘性控制策略(PMCP),動態分配新的網絡容量來學習越來越困難的運動序列。PMCP允許有效擴展以從大規模運動數據庫中學習,並添加新任務,例如失敗狀態恢復,而不會出現災難性遺忘。我們通過在現場和實時的多人頭像使用案例中使用它來模仿來自基於視頻姿勢估計器和基於語言運動生成器的噪聲姿勢,展示了我們控制器的有效性。
像ChatGPT這樣的大型語言模型最近展示了令人印象深刻的自然語言理解和生成能力,使得各種應用成為可能,包括翻譯、寫作和閒聊。然而,人們擔心它們可能被惡意使用,例如用於欺詐或阻斷服務攻擊。因此,開發方法來檢測對話中的參與方是機器人還是人類至關重要。在本文中,我們提出了一個名為FLAIR的框架,通過一個詢問和回應來尋找大型語言模型的真實性,以在線方式檢測對話機器人。具體來說,我們針對一個單一問題情境,可以有效區分人類用戶和機器人。問題分為兩類:對人類容易但對機器人困難的問題(例如計數、替換、定位、噪音過濾和ASCII藝術),以及對機器人容易但對人類困難的問題(例如記憶和計算)。我們的方法展示了這些問題在有效性上的不同優勢,為在線服務提供商提供了一種新的方式來保護自己免受惡意活動的侵害,確保他們正在為真實用戶提供服務。我們在https://github.com/hongwang600/FLAIR上公開了我們的數據集,並歡迎社區貢獻以豐富此類檢測數據集。
文本嵌入是幾個自然語言處理應用中有用的特徵,例如句子相似度、文本聚類和語義搜索。本文提出了一種低秩適應方法,該方法在8位元Siamese-BLOOM之上採用對比目標,這是一個多語言大型語言模型,經過優化以生成語義上有意義的詞嵌入。這項創新有三個方面。首先,我們將BLOOM權重轉換為8位元值。其次,我們使用可擴展的適配器(LoRA)和8位元Adam優化器對BLOOM進行微調,用於句子相似度分類。第三,我們在BLOOM模型上應用Siamese架構,並採用對比目標,以緩解多語言標記數據的稀缺性。實驗結果顯示,從LACoS-BLOOM學習的嵌入質量與模型參數數量和未標記訓練數據量成正比。通過參數高效微調設計,我們能夠在單個GPU機器上以32GB內存端對端運行擁有71億參數的BLOOM。與以前的解決方案Sentence-BERT相比,我們在英語和多語言STS任務上均取得了顯著改進。