每日精選AI研究論文及翻譯
對於從文字描述生成高保真度視頻的需求不斷增長,已在這一領域引發了重要的研究。在這項工作中,我們介紹了MagicVideo-V2,它將文本到圖像模型、視頻運動生成器、參考圖像嵌入模組和幀插值模組整合到一個端到端的視頻生成流程中。由於這些架構設計的好處,MagicVideo-V2能夠生成美觀、高分辨率的視頻,具有卓越的保真度和流暢性。通過大規模用戶評估,它展示了優於Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion模型等領先的文本到視頻系統的性能。
我們介紹了MAGNeT,一種遮罩生成序列建模方法,可直接操作多個音頻標記流。與先前的工作不同,MAGNeT由單階段、非自回歸變壓器組成。在訓練期間,我們根據遮罩調度器預測遮罩標記的範圍,而在推理期間,我們逐步使用多個解碼步驟構建輸出序列。為了進一步提高生成音頻的質量,我們引入了一種新穎的重新評分方法,其中我們利用外部預訓練模型對MAGNeT的預測進行重新評分和排名,然後用於後續的解碼步驟。最後,我們探索了MAGNeT的混合版本,在這個版本中,我們在自回歸方式下生成前幾秒,而其餘序列則同時進行解碼。我們展示了MAGNeT在文本轉音樂和文本轉音頻生成任務中的效率,並進行了廣泛的實證評估,考慮了客觀指標和人類研究。所提出的方法與評估基準相當,同時速度顯著更快(比自回歸基準快7倍)。通過消融研究和分析,我們闡明了構成MAGNeT的每個組件的重要性,並指出了自回歸和非自回歸建模之間的權衡,考慮了延遲時間、吞吐量和生成質量。樣本可在我們的演示頁面https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT 上找到。
線性注意力是一種高效的注意機制,最近作為傳統 softmax 注意力的一個有前途的替代方案而出現。線性注意力能夠以線性計算複雜度處理標記,理論上可以處理無限長度的序列而不降低速度,即在固定記憶體消耗下為不同序列長度保持恆定的訓練速度。然而,由於累積求和(cumsum)的問題,目前的線性注意力算法無法在因果設置中展現其理論優勢。本文提出了 Lightning Attention-2,這是第一個實現線性注意力以實現其理論計算優勢的線性注意力實現。為了實現這一目標,我們利用了平鋪思想,分別處理線性注意力計算中的區塊內和區塊間組件。具體來說,我們利用傳統的注意力計算機制來處理區塊內,並對區塊間應用線性注意力核技巧。平鋪技術通過前向和後向過程採用,以充分利用 GPU 硬件。我們在 Triton 中實現了我們的算法,使其具有 IO 意識和硬件友好性。在不同模型大小和序列長度上進行了各種實驗。Lightning Attention-2 不論輸入序列長度如何,保持一致的訓練和推斷速度,比其他注意力機制快得多。源代碼可在 https://github.com/OpenNLPLab/lightning-attention 找到。
基於大型語言模型(LLMs)的基於表格的推理是應對許多表格理解任務的一個有前途的方向,例如基於表格的問答和事實驗證。與通用推理相比,基於表格的推理需要從自由形式問題和半結構化表格數據中提取潛在語義。Chain-of-Thought及其類似方法將推理鏈以文本上下文的形式納入,但如何有效地利用表格數據在推理鏈中仍然是一個懸而未決的問題。我們提出Chain-of-Table框架,其中表格數據明確地在推理鏈中作為中間思維的代理使用。具體來說,我們引導LLMs使用上下文學習來迭代生成操作並更新表格以表示表格推理鏈。因此,LLMs可以根據先前操作的結果動態規劃下一個操作。表格的持續演變形成一個鏈,展示了給定表格問題的推理過程。該鏈攜帶中間結果的結構化信息,從而實現更準確和可靠的預測。Chain-of-Table在WikiTQ、FeTaQA和TabFact基準上實現了新的最先進性能,跨多種LLM選擇。
跳切是一種突兀且有時不受歡迎的觀看體驗變化。我們提出了一個新穎的框架,用於平滑這些跳切,在說話頭部視頻的背景下。我們利用視頻中其他來源幀中主題的外觀,將其與由DensePose關鍵點和面部地標驅動的中級表示融合。為了實現運動,我們在切換周圍的結束幀之間插值關鍵點和地標。然後,我們使用圖像轉換網絡從關鍵點和來源幀中,合成像素。由於關鍵點可能包含錯誤,我們提出了一種跨模態注意機制,以選擇並為每個關鍵點從多個選項中挑選最合適的來源。通過利用這種中級表示,我們的方法可以實現比強大的視頻插值基線更強大的結果。我們在說話頭部視頻中的各種跳切上展示了我們的方法,例如刪除填充詞、停頓,甚至隨機切割。我們的實驗表明,即使在說話頭部在跳切中旋轉或急劇移動的挑戰性情況下,我們也能實現無縫過渡。
神經網絡在視覺和視覺語言應用中,如圖像分類和標題生成,依賴大規模標註數據集,需要耗費大量時間進行數據收集。這一耗時的工作阻礙了大規模數據集的出現,限制了研究人員和從業者的選擇。因此,我們尋求更有效的方式來收集和標註圖像。先前的倡議從HTML alt文本和社交媒體帖子中獲取標題,但這些數據源存在噪音、稀疏性或主觀性。因此,我們轉向商業購物網站,其數據符合三個標準:清潔度、信息量和流暢度。我們介紹了“一起去購物”(LGS)數據集,這是一個來自公開電子商務網站的包含1500萬圖像-標題對的大規模公共數據集。與現有的通用領域數據集相比,LGS圖像聚焦於前景對象,背景較簡單。我們對LGS的實驗表明,現有基準數據集上訓練的分類器不容易泛化到電子商務數據,而特定的自監督視覺特徵提取器可以更好地泛化。此外,LGS的高質量電子商務專注圖像和雙模態特性使其在視覺語言雙模任務中具有優勢:LGS使圖像標題生成模型能夠生成更豐富的標題,並幫助文本到圖像生成模型實現電子商務風格轉換。
事實性問題通常可以在不同細緻度的水平上正確回答。例如,「1961年8月4日」和「1961年」都是對問題「巴拉克·奧巴馬是何時出生的?」的正確答案。然而,標準問答(QA)評估協議並未明確考慮這一點,而是將預測答案與單一細緻度水平的答案進行比較。在這項工作中,我們提出了GRANOLA QA,一個新穎的評估設置,其中將預測答案根據準確性和信息量與一組多細緻度答案進行評估。我們提出了一種簡單的方法來豐富現有數據集的多細緻度答案,並創建了GRANOLA-EQ,這是EntityQuestions數據集的多細緻度版本。我們在GRANOLA-EQ上評估了一系列解碼方法,包括一種新算法,稱為具有響應聚合的解碼(DRAG),該算法旨在將響應的細緻度與模型的不確定性對齊。我們的實驗表明,具有標準解碼的大型語言模型往往會生成具體且常常不正確的答案。相反,當對多細緻度答案進行評估時,DRAG的平均準確性幾乎提高了近20個百分點,對於罕見實體而言進一步增加。總的來說,這顯示標準評估和解碼方案可能嚴重低估了語言模型所包含的知識。
儘管擴散模型在語音增強方面具有潛力,但它們在聲學回音消除(AEC)中的應用受到限制。在本文中,我們提出了DI-AEC,開創了一種基於擴散的隨機再生方法,專門用於AEC。此外,我們提出了FADI-AEC,一種快速基於分數的擴散AEC框架,以節省計算需求,使其適用於邊緣設備。它的獨特之處在於每幀運行一次分數模型,實現了處理效率的顯著提升。除此之外,我們引入了一種新型噪聲生成技術,其中利用遠端信號,將遠端信號和近端信號結合起來,以提高分數模型的準確性。我們在ICASSP2023 Microsoft深度回音消除挑戰評估數據集上測試了我們提出的方法,在那裡我們的方法優於一些端到端方法和其他基於擴散的回音消除方法。