每日精選AI研究論文及翻譯
我們介紹了一個名為BASE TTS的文本轉語音(TTS)模型,它代表著Big Adaptive Streamable TTS with Emergent abilities。BASE TTS是迄今為止最大的TTS模型,訓練於10萬小時的公共領域語音數據,實現了語音自然度的新突破。它採用了一個擁有10億參數的自回歸Transformer,將原始文本轉換為離散代碼("speechcodes"),隨後通過基於卷積的解碼器將這些speechcodes以增量、可串流的方式轉換為波形。此外,我們的speechcodes採用了一種新穎的語音標記技術,具有語者ID的解耦和壓縮,使用字節對編碼。回應了當大型語言模型在訓練過程中使用更多數據時廣泛報導的"新興能力",我們展示了使用10K+小時和500M+參數構建的BASE TTS變體在文本上複雜句子中開始展現自然的韻律。我們設計並分享了一個專門用於評估這些新興能力的文本轉語音專用數據集。通過與包括YourTTS、Bark和TortoiseTTS在內的公開大規模文本轉語音系統在內的基準進行評估,展示了BASE TTS的最新自然度。模型生成的音頻樣本可在https://amazon-ltts-paper.com/聆聽。
目前的語言模型在理解無法輕易用文字描述的世界方面存在不足,並且在處理複雜、長格式任務時遇到困難。視頻序列提供了在語言和靜態圖像中缺失的寶貴時間信息,使其成為與語言聯合建模的吸引力所在。這樣的模型可以發展對人類文本知識和物理世界的理解,從而擴大AI協助人類的能力。然而,從數百萬個視頻和語言序列中學習面臨記憶限制、計算複雜性和有限數據集等挑戰。為了應對這些挑戰,我們匯編了一個包含多樣視頻和書籍的大型數據集,利用RingAttention技術可擴展地訓練長序列,並逐步將上下文大小從4K擴展至1M標記。本文的貢獻如下:(a) 最大上下文大小神經網絡:我們在長視頻和語言序列上訓練了一個擁有最大上下文大小的變壓器,為困難的檢索任務和長視頻理解設立了新的基準。(b) 克服視覺-語言訓練挑戰的解決方案,包括使用遮罩序列打包來混合不同序列長度、損失加權以平衡語言和視覺,以及模型生成的QA數據集用於長序列對話。(c) 通過RingAttention、遮罩序列打包和其他關鍵功能進行高度優化的實現,用於在數百萬長度的多模式序列上進行訓練。(d) 完全開源的一系列能夠處理長文檔(LWM-Text、LWM-Text-Chat)和視頻(LWM、LWM-Chat)中超過1M標記的70億參數模型家族。這項工作為在大規模視頻和語言數據集上進行訓練,以發展對人類知識和多模式世界的理解以及更廣泛的能力鋪平了道路。
最近在(自我)監督學習模型方面的快速進展很大程度上是由實證的規模定律所預測的:模型的性能與其大小成比例地增長。然而,在強化學習領域中,類似的規模定律仍然難以捉摸,增加模型的參數數量通常會損害最終性能。在本文中,我們展示了將專家混合(MoE)模塊,特別是軟MoE(Puigcerver等人,2023年),納入基於價值的網絡中,將導致更具參數可擴展性的模型,這在各種訓練方案和模型大小下都表現為顯著的性能提升。因此,這項工作為發展強化學習的規模定律提供了強有力的實證證據。
我們介紹 Lumos,這是第一個具有文本理解能力的端對端多模式問答系統。Lumos 的核心是一個場景文本識別(STR)組件,從第一人稱視角圖像中提取文本,其輸出用於增強輸入到多模式大型語言模型(MM-LLM)。在構建 Lumos 過程中,我們遇到了許多與 STR 質量、整體延遲和模型推斷相關的挑戰。在本文中,我們深入探討這些挑戰,並討論用於克服這些障礙的系統架構、設計選擇和建模技術。我們還為每個組件提供了全面的評估,展示了高質量和效率。
圖神經網絡(GNNs)在圖表示學習中展現了潛在的應用價值。大多數GNNs定義了一種局部消息傳遞機制,通過堆疊多個層在圖上傳播信息。然而,這些方法已知存在兩個主要限制:過度壓縮和對長程依賴性的捕捉不足。最近,圖形轉換器(GTs)作為消息傳遞神經網絡(MPNNs)的一個強大替代方案崛起。然而,GTs具有二次計算成本,缺乏對圖結構的歸納偏差,並依賴於複雜的位置/結構編碼(SE/PE)。在本文中,我們展示了儘管在實踐中,轉換器、複雜消息傳遞和SE/PE對於良好性能是足夠的,但並非必要。受到最近狀態空間模型(SSMs)如Mamba的成功啟發,我們提出了圖Mamba網絡(GMNs),這是一個基於選擇性SSMs的新型GNNs通用框架。我們討論並對採用SSMs到圖結構數據時遇到的新挑戰進行分類,提出了設計GMNs所需的四個必要步驟和一個可選步驟,我們選擇了(1)鄰域標記化,(2)標記順序,(3)雙向選擇性SSM編碼器架構,(4)局部編碼,以及可有可無的(5)PE和SE。我們進一步提供了GMNs強大性能的理論證明。實驗表明,儘管計算成本遠低於其他方法,GMNs在長程、小規模、大規模和異質基準數據集上取得了優異的性能。
我們介紹了UFO,一個創新的以UI為焦點的代理程式,旨在滿足針對Windows作業系統應用程式定製的使用者請求,利用GPT-Vision的能力。UFO採用雙代理架構,精心觀察和分析Windows應用程式的圖形使用者介面(GUI)和控制資訊。這使得代理程式能夠無縫地在個別應用程式內部和跨應用程式之間進行導航和操作,以滿足使用者的請求,即使涉及多個應用程式。該架構包含一個控制互動模組,促進行動基礎的實現而無需人類干預,實現完全自動化執行。因此,UFO將費時費力的過程轉變為僅通過自然語言命令就能輕鬆完成的簡單任務。我們在9個流行的Windows應用程式上對UFO進行了測試,涵蓋了反映使用者日常使用情況的各種情境。從定量指標和實際案例研究中得出的結果突顯了UFO在滿足使用者請求方面的卓越效果。據我們所知,UFO是第一個專門為Windows作業系統環境中的任務完成而定製的UI代理程式。UFO的開源程式碼可在https://github.com/microsoft/UFO 上找到。
大多數文本轉3D生成器都是基於數十億圖像訓練的現成文本轉圖像模型。它們使用Score Distillation Sampling(SDS)的變體,這種方法速度較慢,有些不穩定,並容易產生瑕疵。一種緩解方法是對2D生成器進行微調,使其具有多視角意識,這有助於提煉,或者可以與重建網絡結合,直接輸出3D物體。在本文中,我們進一步探索文本轉3D模型的設計空間。我們通過考慮視頻而不是圖像生成器,顯著改善了多視角生成。結合使用高斯濺射的3D重建算法,可以優化穩健的基於圖像的損失,我們可以直接從生成的視圖中產生高質量的3D輸出。我們的新方法IM-3D將2D生成器網絡的評估次數降低了10-100倍,從而實現了更高效的流程,更好的質量,更少的幾何不一致性,以及更高的可用3D資產產出率。
隨著大型語言模型(LLMs)的快速演進,它們在科學領域中的影響日益突出。LLMs在任務泛化和自由對話方面的新興能力可以顯著推動化學和生物學等領域的發展。然而,作為構成生物體基礎結構的單細胞生物學領域仍面臨著一些挑戰。目前方法中存在的高知識門檻和有限的可擴展性限制了LLMs在掌握單細胞數據方面的充分應用,阻礙了直接訪問和快速迭代。為此,我們引入了ChatCell,通過自然語言促進單細胞分析,標誌著一種範式轉變。ChatCell利用詞彙適應和統一序列生成,已經獲得了對單細胞生物學的深刻專業知識和適應各種分析任務的能力。大量實驗進一步展示了ChatCell的穩健表現和加深單細胞洞察力的潛力,為在這一關鍵領域中進行更易接近和直觀探索鋪平了道路。我們的項目主頁位於https://zjunlp.github.io/project/ChatCell。
目前對擴散模型(例如透過文本或控制網)進行影像生成的控制不足以識別抽象的連續屬性,如光線方向或非剛性形狀變化。本文提出一種方法,讓文本轉圖像模型的使用者能夠對圖像中的多個屬性進行精細控制。我們通過設計特殊的輸入標記集,可以連續地轉換這些標記集,我們稱之為連續3D詞。這些屬性可以例如被表示為滑塊,並與文本提示一起應用,以實現對影像生成的精細控制。我們展示,只需一個網格和一個渲染引擎,我們的方法可以被採用,以提供對幾個3D感知屬性的連續用戶控制,包括白天光線照射、鳥翼方向、遠近變焦效果和物體姿勢。我們的方法能夠同時條件影像創建,使用多個連續3D詞和文本描述,而不會給生成過程增加額外負擔。項目頁面:https://ttchengab.github.io/continuous_3d_words
傳統大型語言模型(LLMs)的自回歸特性固有地限制了推理速度,因為標記是按順序生成的。儘管投機性和並行解碼技術試圖緩解這一問題,但它們存在限制:要麼依賴於生成較不準確的較小模型,要麼未能充分利用基本LLM的表示。 我們引入了一種新穎的架構,稱為串聯變壓器(Tandem transformers),以應對這些問題。該架構獨特地結合了(1)一個小的自回歸模型和(2)以塊模式運行的大型模型(同時處理多個標記)。通過讓小模型關注大模型更豐富的表示,小模型的預測準確性得到了顯著提高。 在PaLM2預訓練數據集上,PaLM2-Bison和PaLM2-Gecko的串聯展示了比獨立的PaLM2-Gecko在下一個標記預測準確性提高了3.3%,相較於具有相當下游性能的PaLM2-Otter模型,速度提升了1.16倍。我們進一步將串聯模型納入投機解碼(SPEED)框架中,其中大模型驗證小模型生成的標記。這確保了PaLM2-Bison和PaLM2-Gecko的串聯實現了顯著的加速(比在SPEED中使用普通的PaLM2-Gecko快約1.14倍),同時保持了相同的下游任務準確性。
手勢識別正成為越來越普遍的人機互動模式,尤其是隨著攝像頭在日常設備中的普及。儘管在這一領域取得了持續進展,手勢定制往往被忽視。定制至關重要,因為它使用戶能夠定義和展示更自然、易記憶和易訪問的手勢。然而,定制需要有效利用用戶提供的數據。我們提出了一種方法,使用戶能夠通過單眼攝像頭輕鬆設計定制手勢,僅需一次演示。我們採用了Transformer和元學習技術來應對少樣本學習挑戰。與以往方法不同,我們的方法支持任意組合的單手、雙手、靜態和動態手勢,包括不同視角。我們通過對來自21名參與者的20個手勢進行用戶研究來評估我們的定制方法,從一次演示中實現高達97%的平均識別準確率。我們的工作為基於視覺的手勢定制提供了一條可行的途徑,為該領域未來的進一步發展奠定了基礎。
神經輻射場(Neural Radiance Field,NeRF)編碼了場景的3D幾何和外觀之間的特定關係。我們在這裡探討一個問題,即我們是否可以以一種語義上有意義的方式,將源NeRF的外觀轉移到目標3D幾何上,使得結果的新NeRF保留目標幾何,但具有與源NeRF類似的外觀。為此,我們將經典的圖像類比從2D圖像推廣到NeRF。我們利用來自大型預訓練2D圖像模型的語義特徵驅動的語義相似性轉移,實現多視角一致的外觀轉移。我們的方法允許探索3D幾何和外觀的混合匹配產品空間。我們展示了我們的方法優於傳統的基於風格化的方法,並且絕大多數用戶更喜歡我們的方法而不是幾種典型的基準方法。