每日精選AI研究論文及翻譯
擴散模型已成為一種強大的生成範式,能在具有連續值輸入的各個領域中取得優異表現。儘管完全非自回歸文本生成具有潛力,但將擴散模型應用於自然語言仍然具有挑戰性,因為其離散性質。在這項工作中,我們提出了一種名為Text-to-text Self-conditioned Simplex Diffusion (TESS) 的文本擴散模型,它是完全非自回歸的,採用一種新形式的自條件設定,並在對數函數空間中應用擴散過程,而非典型的學習嵌入空間。通過對自然語言理解和生成任務進行廣泛實驗,包括摘要、文本簡化、釋義生成和問題生成,我們展示了TESS優於最先進的非自回歸模型,並且與預訓練的自回歸序列到序列模型具有競爭力。
通用音源分離(USS)是計算聽覺場景分析的基礎研究任務,旨在將單聲道錄音分離為個別音源軌。音源分離任務面臨三個潛在挑戰等待解決。首先,先前的音源分離系統主要專注於分離一個或有限數量的特定音源,缺乏建立能透過單一模型分離任意音源的研究。其次,大多數先前的系統需要乾淨的音源數據來訓練分離器,而乾淨的音源數據稀缺。第三,缺乏能夠在分層級別自動檢測和分離活動聲音類別的USS系統。為了利用大規模弱標記/未標記的音頻數據進行音源分離,我們提出了一個通用音源分離框架,包括:1)在弱標記數據上訓練的音頻標記模型作為查詢網絡;和2)一個條件音源分離模型,該模型將查詢網絡的輸出作為條件來分離任意聲源。我們研究了各種查詢網絡、音源分離模型和訓練策略,提出了一種分層USS策略,以從AudioSet本體論中自動檢測和分離聲音類別。通過僅利用弱標記的AudioSet,我們的USS系統成功地分離了各種聲音類別,包括聲音事件分離、音樂音源分離和語音增強。USS系統在AudioSet的527個聲音類別上實現了平均信號失真比改善(SDRi)為5.57 dB;在DCASE 2018任務2數據集上為10.57 dB;在MUSDB18數據集上為8.12 dB;在Slakh2100數據集上為7.28 dB;在voicebank-demand數據集上為9.00 dB的SSNR。我們在https://github.com/bytedance/uss 上發布了源代碼。
基於文本驅動的影像和影片擴散模型已經取得了前所未有的成功,能夠生成逼真且多樣化的內容。最近,基於擴散的生成模型中對現有影像和影片進行編輯和變化引起了顯著的關注。然而,先前的研究僅限於使用文本編輯內容或使用單一視覺線索提供粗略個性化,因此無法滿足需要精細和詳細控制的難以描述的內容。在這方面,我們提出了一個名為Make-A-Protagonist的通用影片編輯框架,該框架利用文本和視覺線索來編輯影片,目的是讓個人成為主角。具體來說,我們利用多個專家來解析源影片、目標視覺和文本線索,並提出了一個基於視覺和文本的影片生成模型,該模型利用遮罩引導去噪採樣來生成所需的輸出。廣泛的結果展示了Make-A-Protagonist的多才多藝和卓越的編輯能力。
摘要模型通常生成的文本與質量指標不夠校準,因為它們是經過訓練以最大化單個參考(MLE)的可能性。為了解決這個問題,最近的研究添加了一個校準步驟,將模型暴露於其自身的排名輸出,以改善相關性,或在另一個研究方向上,對比正面和負面集以提高忠實度。儘管有效,但許多研究都集中在如何生成和優化這些集合上。我們對哪種設置比另一種更有效知之甚少。在這項研究中,我們揭示了有效集合的潛在特徵。對於每個訓練實例,我們形成了一個大型、多樣化的候選人池,並系統地變化用於校準微調的子集。每個選擇策略都針對集合的不同方面,如詞彙多樣性或正面和負面之間的差距大小。在三個不同的科學長文摘要數據集(涵蓋生物醫學、臨床和化學領域)中,我們發現,忠實度校準在負面集合是抽取性且更有可能生成時最佳,而對於相關性校準,候選人之間的指標間隔應該被最大化,並且應該最小化驚喜——模型和指標定義的候選人排名之間的不一致性。創建、選擇和優化校準集合的代碼可在以下鏈接找到:https://github.com/griff4692/calibrating-summaries
儘管在網絡大規模圖像文本數據上進行預訓練促進了許多視覺語言(V&L)任務的快速進展,但最近的研究表明預訓練模型缺乏“細粒度”理解,例如在圖像中識別關係、動詞和數字的能力。這導致社區對開發新的基準或具有這些能力的模型產生了更大的興趣。為了更好地理解和量化在這方面的進展,我們對四個細粒度基準上的四個競爭性V&L模型進行了研究。通過我們的分析,我們發現X-VLM(曾等人,2022年)在性能上始終優於其他基準,並且建模創新可能比擴展網絡數據對性能的影響更大,有時甚至會降低性能。通過對X-VLM的深入研究,我們強調了新型損失和豐富數據來源對學習細粒度技能的重要性。最後,我們檢查了訓練動態,發現對於某些任務,性能在訓練初期達到峰值或明顯波動,永遠無法收斂。
生成忠實的人臉視覺化需要捕捉臉部幾何和外觀的粗細細節。現有方法要麼是數據驅動的,需要大量數據庫,這些數據對研究社區不公開,要麼無法捕捉細節,因為它們依賴於幾何臉部模型,無法用網格離散化和線性變形來表示細緻的紋理細節,這些模型僅設計用於建模粗略的臉部幾何。我們引入了一種方法,通過從傳統計算機圖形技術中汲取靈感來彌合這一差距。未見表情通過混合來自稀疏極端姿勢集的外觀來建模。這種混合是通過測量這些表情中的局部體積變化來執行的,並在測試時每當執行類似表情時在局部重現它們的外觀。我們展示了我們的方法對未見表情的泛化,將細緻效果添加到臉部的平滑體積變形之上,並展示了它如何對臉部之外的泛化。
確保大型語言模型(LMs)公平、穩健且有用,需要了解對其輸入進行不同修改如何影響模型行為。然而,在開放式文本生成任務中,這樣的評估並不簡單。例如,當引入具有輸入文本和經過扰動的“對比”版本的模型時,使用標準解碼策略可能無法顯示在下一個令牌預測中的實質性差異。基於這種動機,我們提出對比輸入解碼(CID):一種解碼算法,用於生成文本給定兩個輸入,其中生成的文本可能是給定一個輸入時的結果,但對於另一個輸入則不太可能。通過這種方式,對比生成可以以簡單且可解釋的方式突顯LM輸出在兩個輸入下的潛在微妙差異。我們使用CID來凸顯難以通過標準解碼策略檢測到的特定上下文偏見,並量化不同輸入扰動的影響。
本文研究了一個新穎的視角動作識別問題,我們稱之為「多模態泛化」(MMG)。MMG旨在研究系統如何在某些模態的數據受限或完全缺失時進行泛化。我們在標準監督動作識別和更具挑戰性的少樣本設置中深入研究了MMG。MMG包含兩個新穎的情境,旨在支持現實應用中的安全性和效率考量:(1)缺失模態泛化,即在推斷時缺少訓練時存在的某些模態;(2)跨模態零樣本泛化,即推斷時和訓練時存在的模態不相交。為了進行這一研究,我們構建了一個新的數據集MMG-Ego4D,其中包含視頻、音頻和慣性運動傳感器(IMU)模態的數據點。我們的數據集源自Ego4D數據集,但經過人類專家的處理和詳細重新標註,以促進對MMG問題的研究。我們在MMG-Ego4D上評估了多種模型,並提出了具有改進泛化能力的新方法。具體來說,我們引入了一個新的融合模塊,包括模態丟棄訓練、基於對比的對齊訓練,以及一種新的跨模態原型損失,以提高少樣本性能。我們希望這項研究能成為多模態泛化問題的基準,並指導未來的研究。基準和代碼將在https://github.com/facebookresearch/MMG_Ego4D 上提供。
資源排程和分配是許多高影響系統的關鍵組成部分,從擁塞控制到雲端運算都涵蓋其中。對這些問題尋找更優化的解決方案通常會對資源和時間節省產生重大影響,降低設備的磨損,甚至潛在地改善碳排放。本文專注於特定的排程問題實例,即發生在機器學習程式編譯期間的記憶映射問題:即將張量映射到不同的記憶層以優化執行時間。 我們介紹了一種使用強化學習解決記憶映射問題的方法。強化學習是一種適合於可進行規劃的序列決策問題和具有高維數據輸入的組合搜索空間的解決範式。我們將問題制定為一個單人遊戲,我們稱之為mallocGame,使得遊戲的高獎勵軌跡對應於目標硬體上高效的記憶映射。我們還介紹了一個強化學習代理人,mallocMuZero,並展示它能夠玩這個遊戲,發現新的和改進的記憶映射解決方案,從而在ML加速器上實際的ML工作負載上實現更快的執行時間。我們將mallocMuZero的表現與加速線性代數(XLA)編譯器使用的默認求解器在一個實際ML工作負載基準上進行比較。此外,我們展示了mallocMuZero能夠改善最近發布的AlphaTensor矩陣乘法模型的執行時間。
包括 OpenAI、Google DeepMind 和 Anthropic 在內的多家領先的人工智慧公司,均宣稱其目標是建立人工通用智能(AGI)- 即在廣泛認知任務中實現或超越人類表現的人工智能系統。為實現此目標,它們可能開發並部署具有特別重大風險的人工智能系統。儘管它們已經採取了一些措施來減輕這些風險,但最佳實踐尚未出現。為支持確定最佳實踐,我們向來自AGI實驗室、學術界和公民社會的92位領先專家發送了一份調查,並收到了51份回應。參與者被問及他們對50個有關AGI實驗室應該採取的行動的陳述有多大同意。我們的主要發現是,參與者平均而言對所有陳述都表示同意。許多陳述獲得了極高水平的一致同意。例如,有98%的受訪者在某種程度上或強烈同意,AGI實驗室應進行部署前風險評估、危險能力評估、第三方模型審核、模型使用安全限制以及紅隊測試。最終,我們的陳述清單可能成為制定AGI實驗室最佳實踐、標準和規定的有益基礎。