每日精選AI研究論文及翻譯
儘管音訊生成在不同類型的音訊(如語音、音樂和音效)之間存在共通之處,但為每種類型設計模型需要仔細考慮特定目標和偏見,這些可能與其他類型顯著不同。為了讓我們更接近音訊生成的統一觀點,本文提出了一個框架,該框架利用相同的學習方法來生成語音、音樂和音效。我們的框架引入了一種稱為音訊語言(LOA)的音訊通用表示。任何音訊都可以基於AudioMAE轉換為LOA,這是一個自監督預訓練表示學習模型。在生成過程中,我們使用GPT-2模型將任何模態轉換為LOA,並使用一個以LOA為條件的潛在擴散模型進行自監督音訊生成學習。所提出的框架自然帶來了優勢,如上下文學習能力以及可重複使用的自監督預訓練的AudioMAE和潛在擴散模型。對於文本到音訊、文本到音樂和文本到語音的主要基準測試進行的實驗表明,相較於先前方法,我們實現了新的最先進或具有競爭力的性能。我們的演示和代碼可在https://audioldm.github.io/audioldm2找到。
確保對齊,指的是使模型符合人類意圖的行為[1,2],在將大型語言模型(LLMs)應用於現實應用之前,已成為一項至關重要的任務。例如,OpenAI在發布GPT-4之前花了六個月來逐步對齊模型[3]。然而,從業者面臨的一個主要挑戰是缺乏關於評估LLM輸出是否符合社會規範、價值觀和法規的明確指導。這一障礙阻礙了LLMs的系統迭代和部署。為了解決這個問題,本文提出了一項關於評估LLM可信度時必須考慮的關鍵維度的全面調查。該調查涵蓋了LLM可信度的七個主要類別:可靠性、安全性、公平性、防止誤用、可解釋性和推理、遵守社會規範以及韌性。每個主要類別進一步細分為幾個子類別,總共有29個子類別。此外,選擇了8個子類別的子集進行進一步研究,設計並對幾個廣泛使用的LLMs進行相應的測量研究。測量結果顯示,一般來說,更加對齊的模型在整體可信度方面表現更好。然而,對齊的有效性在考慮的不同可信度類別之間存在差異。這凸顯了進行更加細緻的分析、測試和對LLM對齊進行持續改進的重要性。通過闡明LLM可信度的這些關鍵維度,本文旨在為該領域的從業者提供有價值的見解和指導。了解並解決這些問題將對在各種應用中實現可靠且符合道德的LLMs部署至關重要。
蛋白質的多重序列對齊(MSAs)編碼豐富的生物信息,數十年來一直是生物信息學方法中的重要工具,用於蛋白質設計和蛋白質結構預測等任務。像AlphaFold2這樣利用變壓器直接關注大量原始MSAs的最新突破再次證實了它們的重要性。然而,MSAs的生成具有高度的計算密集性,並且目前尚未向研究社區提供與AlphaFold2訓練使用的數據集相媲美的數據,這阻礙了蛋白質機器學習的進展。為解決這個問題,我們介紹了OpenProteinSet,這是一個開源語料庫,包含超過1600萬個MSAs、與蛋白質數據庫中的結構同源物以及AlphaFold2蛋白質結構預測相關聯。我們先前已成功地通過OpenProteinSet對AlphaFold2進行了重新訓練,證明了OpenProteinSet的實用性。我們期望OpenProteinSet將廣泛應用於以下方面:1)用於蛋白質結構、功能和設計等多樣任務的訓練和驗證數據;2)用於大規模多模態機器學習研究。
追蹤和跟踪感興趣的物件對於幾個機器人技術的應用至關重要,從工業自動化到物流和倉儲,再到醫療保健和安全領域。本文介紹了一個機器人系統,可以實時檢測、追蹤和跟隨任何物件。我們的方法被稱為“跟隨任何物件”(FAn),是一個開放詞彙和多模型模型 —— 不僅限於訓練時見過的概念,並且可以應用於推論時使用文本、圖像或點擊查詢的新類別。利用來自大規模預訓練模型(基礎模型)的豐富視覺描述符,FAn 可以通過將多模式查詢(文本、圖像、點擊)與輸入圖像序列進行匹配來檢測和分割物件。這些檢測和分割的物件在圖像幀之間被追蹤,同時考慮遮擋和物件再次出現。我們在一個實際的機器人系統(微型空中載具)上展示了 FAn,並報告了它在實時控制迴路中無縫跟隨感興趣物件的能力。FAn 可以部署在配備輕量級(6-8 GB)顯卡的筆記本電腦上,實現每秒 6-20 幀的吞吐量。為了促進快速採用、部署和擴展性,我們在我們的項目網頁 https://github.com/alaamaalouf/FollowAnything 上開源了所有代碼。我們還鼓勵讀者觀看我們的 5 分鐘解說視頻,連結在此 https://www.youtube.com/watch?v=6Mgt3EPytrw 。
本研究考慮基於梯度的網格優化,通過將三維表面網格表示為標量場的等值面,逐步進行優化。這種方法在包括攝影測量、生成建模和反物理學等應用中越來越常見。現有的實現適應了經典的等值面提取算法,如Marching Cubes或Dual Contouring;這些技術旨在從固定的已知場中提取網格,在優化設置中,它們缺乏表示高質量保留特徵網格的自由度,或者受到數值不穩定性的影響。我們引入了FlexiCubes,這是一種專門設計用於根據幾何、視覺甚至物理目標優化未知網格的等值面表示。我們的主要見解是引入額外精心選擇的參數到表示中,這些參數允許對提取的網格幾何和連接進行局部靈活調整。這些參數與基礎標量場一起通過自動微分進行更新,用於優化下游任務。我們基於Dual Marching Cubes提出了提取方案以改善拓撲性質,並提出了擴展以選擇性生成四面體和階層自適應網格。廣泛的實驗驗證了FlexiCubes在合成基準和真實應用中的效果,表明它在網格質量和幾何保真度方面提供了顯著改進。
Alexa Prize計劃賦予了眾多大學生探索、實驗和展示他們在建構對話代理方面的才能的機會,其中包括SocialBot Grand Challenge和TaskBot Challenge等挑戰。隨著對話代理在多模態和具體化情境中的應用日益增多,探索透過計算機視覺和實體化增強對話互動的可能性變得至關重要。本文描述了SimBot Challenge,這是一項新挑戰,大學團隊將競爭建構在模擬物理環境中完成任務的機器人助手。本文概述了SimBot Challenge,包括線上和線下挑戰階段。我們描述了為團隊提供的基礎設施和支援,包括Alexa Arena、模擬環境以及提供給團隊加速建構視覺和語言模型的ML工具包。我們總結了參賽團隊應對研究挑戰的方法,並提取了關鍵的經驗教訓。最後,我們對比賽期間參賽SimBot的表現進行了分析。
時變偏微分方程(PDE)在科學和工程領域中無處不在。最近,主要是由於傳統解決方法的高計算成本,基於深度神經網絡的替代方案引起了日益增加的關注。這些神經網絡PDE求解器的實際應用取決於它們能夠在長時間範圍內提供準確、穩定的預測,這是一個眾所周知的難題。在這項工作中,我們對常見的時間展開策略進行了大規模分析,識別了忽略非主導空間頻率信息的問題,這種信息通常與PDE解的高頻率相關,是限制穩定、準確展開性能的主要問題。基於這些見解,我們從最近擴散模型的進展中汲取靈感,引入了PDE-Refiner;這是一種新型模型類別,通過多步細化過程實現對所有頻率成分更準確的建模。我們在複雜流體動力學的具有挑戰性的基準測試中驗證了PDE-Refiner,展示了穩定且準確的展開,始終優於最先進的模型,包括神經網絡、數值和混合神經-數值結構。我們進一步證明,PDE-Refiner極大地提高了數據效率,因為去噪目標隱含地引入了一種新形式的頻譜數據增強。最後,PDE-Refiner與擴散模型的聯繫使我們能夠準確高效地評估模型的預測不確定性,從而使我們能夠估計替代方案何時變得不準確。