每日精選AI研究論文及翻譯
像GPT-4o這樣的模型使得通過語音與大型語言模型(LLMs)進行實時互動成為可能,相較於傳統基於文本的互動,顯著提升了用戶體驗。然而,目前尚缺乏對如何基於開源LLMs構建語音互動模型的探索。為了解決這一問題,我們提出了LLaMA-Omni,這是一種新穎的模型架構,旨在實現與LLMs的低延遲和高質量語音互動。LLaMA-Omni整合了預訓練的語音編碼器、語音適配器、LLM和流式語音解碼器。它消除了對語音轉錄的需求,可以同時從語音指令中直接生成文本和語音回應,並實現極低的延遲。我們基於最新的Llama-3.1-8B-Instruct模型構建了我們的模型。為了使模型與語音互動場景保持一致,我們構建了一個名為InstructS2S-200K的數據集,其中包括20萬個語音指令和相應的語音回應。實驗結果表明,與先前的語音語言模型相比,LLaMA-Omni在內容和風格上提供了更好的回應,回應延遲低至226毫秒。此外,僅需4個GPU,訓練LLaMA-Omni不到3天的時間,為未來高效開發語音語言模型鋪平了道路。
檢索增強生成(RAG)已成為一種常見範式,用於將大型語言模型(LLMs)與私人和最新知識庫結合使用。在這項工作中,我們解決了在評估RAG系統生成的基於事實的答案時使用LLM作為評判的挑戰。為了評估評判模型的校準和區分能力,我們確定了7種生成器失敗模式並引入了GroUSE(Grounded QA Unitary Scoring of Evaluators),這是一個包含144個單元測試的元評估基準。該基準顯示,即使在使用GPT-4作為評判時,現有的自動化RAG評估框架通常會忽略重要的失敗模式。 為了改進當前設計的自動化RAG評估框架,我們提出了一個新穎的流程,發現雖然封閉模型在GroUSE上表現良好,但最先進的開源評判並不能泛化到我們提出的標準,儘管與GPT-4的判斷有很強的相關性。我們的研究結果表明,與GPT-4的相關性是評判模型實際性能的不完整代理,應該與單元測試上的評估相結合,以便準確檢測失敗模式。 此外,我們進一步展示,將Llama-3在GPT-4的推理跟踪上進行微調,顯著提升了其評估能力,改善了與GPT-4評估的相關性以及對參考情況的校準。
「可支配性」指的是物體固有的潛在互動性。對可支配性的感知能夠讓智能代理有效地在新環境中導航和互動。弱監督式可支配性基礎教導代理理解可支配性的概念,而無需昂貴的像素級標註,而是利用外中心圖像。儘管最近在弱監督式可支配性基礎方面取得了令人鼓舞的成果,但仍然存在挑戰,包括需要配對的外中心和自中心圖像數據集,以及為單個物體確定各種可支配性的複雜性。為了應對這些挑戰,我們提出了基於互動關係感知的弱監督式可支配性基礎(INTRA)。與以往方法不同,INTRA將這個問題重新定義為通過僅使用外中心圖像進行對比學習來識別互動的獨特特徵的表示學習,從而消除了對配對數據集的需求。此外,我們利用視覺-語言模型嵌入來靈活執行可支配性基礎,設計了文本條件下的可支配性地圖生成,以反映對比學習的互動關係,並通過我們的文本同義詞擴充增強了韌性。我們的方法在各種數據集(如AGD20K、IIT-AFF、CAD和UMD)上優於以往方法。此外,實驗結果表明,我們的方法對於合成圖像/插圖具有顯著的領域可擴展性,能夠執行對新型互動和物體的可支配性基礎。
音樂是人類文化不可或缺的一部分,體現了人類的智慧和創造力,其中歌曲佔據了重要地位。儘管先前的研究已探索了歌曲生成的各個方面,如歌唱聲音、聲樂作曲和樂器編排等,但在給定歌詞的情況下生成既有人聲又有伴奏的歌曲仍然是一個重大挑戰,阻礙了音樂生成模型在現實世界中的應用。基於這一情況,我們提出了SongCreator,這是一個旨在應對這一挑戰的歌曲生成系統。該模型具有兩個新穎的設計:精心設計的雙序列語言模型(DSLM)用於捕捉歌曲生成的人聲和伴奏信息,以及DSL模型的額外注意力遮罩策略,使我們的模型能夠理解、生成和編輯歌曲,適用於各種與歌曲相關的生成任務。大量實驗證明了SongCreator的有效性,通過在所有八個任務上實現了最先進或具有競爭力的表現。值得注意的是,在歌詞轉歌曲和歌詞轉人聲方面,它明顯超越了先前的作品。此外,通過不同提示,它能夠獨立控制生成歌曲中人聲和伴奏的聲學條件,展示了其潛在的應用價值。我們的樣本可在https://songcreator.github.io/ 上找到。
「Foley」是在電影製作中常用的術語,指的是將日常音效添加到無聲電影或影片中,以增強聽覺體驗。視訊轉音訊(Video-to-Audio,V2A)作為一種特定類型的自動「Foley」任務,面臨與音視頻同步相關的固有挑戰。這些挑戰包括在輸入視頻和生成音頻之間保持內容一致性,以及在視頻中調整時間和音量特性的對齊。為了應對這些問題,我們構建了一個可控的視訊轉音訊合成模型,稱為「Draw an Audio」,通過繪製遮罩和音量信號支持多個輸入指令。為了確保合成音頻與目標視頻之間的內容一致性,我們引入了「Mask-Attention Module」(MAM),該模塊利用遮罩視頻指令使模型專注於感興趣的區域。此外,我們實現了「Time-Loudness Module」(TLM),該模塊使用輔助音量信號確保聲音的合成與視頻在音量和時間維度上保持一致。此外,我們通過添加標註標題提示,擴展了一個大規模的V2A數據集,名為「VGGSound-Caption」。在兩個大規模V2A數據集上進行的廣泛實驗證實了「Draw an Audio」實現了最先進的技術水準。項目頁面:https://yannqi.github.io/Draw-an-Audio/。
近年來,擴散模型的發展在圖像和視頻生成任務中取得了顯著進展,像是Stable Diffusion系列這樣的預訓練模型發揮了關鍵作用。受到模型修剪的啟發,該方法通過刪除不重要的參數來簡化大型預訓練模型,我們提出了一種新穎的模型微調方法,以充分利用這些無效參數,並賦予預訓練模型新的任務特定能力。在這項工作中,我們首先研究了預訓練擴散模型中參數的重要性,發現絕對值最小的10%至20%的參數對生成過程沒有貢獻。基於這一觀察,我們提出了一種名為SaRA的方法,重新利用這些暫時無效的參數,相當於優化一個稀疏權重矩陣以學習任務特定知識。為了減輕過度擬合,我們提出了一種基於核范數的低秩稀疏訓練方案,用於有效微調。此外,我們設計了一種新的漸進式參數調整策略,以充分利用重新訓練/微調的參數。最後,我們提出了一種新穎的非結構化反向傳播策略,在微調過程中顯著降低了內存成本。我們的方法增強了預訓練模型在下游應用中的生成能力,並在保持模型泛化能力方面優於LoRA等傳統微調方法。我們通過對SD模型進行微調實驗來驗證我們的方法,展示了顯著的改進。SaRA還提供了一個實際優勢,只需修改一行代碼即可進行高效實現,並與現有方法無縫兼容。
神經輝度場(Neural Radiance Fields,NeRFs)已經在重建靜態場景和3D物體方面引起了革命性變化,提供了前所未有的品質。然而,將NeRFs擴展到建模動態物體或物體關節仍然是一個具有挑戰性的問題。先前的研究通過專注於物體的部分級重建和運動估計來應對這個問題,但它們常常依賴於有關移動部件或物體類別數量的經驗法則,這可能限制了它們的實際應用。在這項研究中,我們介紹了LEIA,一種用於表示動態3D物體的新方法。我們的方法涉及在不同時間步驟或“狀態”下觀察物體,並在當前狀態上條件一個超網絡,用此來對我們的NeRF進行參數化。這種方法使我們能夠為每個狀態學習一個與視角無關的潛在表示。我們進一步展示,通過在這些狀態之間進行插值,我們可以生成在3D空間中以前從未見過的新的關節配置。我們的實驗結果突出了我們的方法在以一種與觀看角度和關節配置無關的方式關節化物體方面的有效性。值得注意的是,我們的方法優於依賴運動信息進行關節註冊的先前方法。