每日精選AI研究論文及翻譯
隨著大型語言模型(LLM)在各個領域變得越來越重要。然而,在加速LLM推論方面仍存在以下挑戰尚未解決:(1)同步部分softmax更新。softmax操作需要在每個部分softmax結果之間進行同步更新操作,導致LLM中的注意力計算產生約20%的開銷。 (2)平坦GEMM計算的低效利用。在LLM推論中執行GEMM的矩陣形狀是平坦的,導致計算被低效利用,在先前設計中填充零後會導致超過50%的性能損失。 (3)由於靜態數據流而導致的性能損失。LLM中的核心性能取決於不同的輸入數據特徵、硬件配置等。單一且靜態的數據流可能導致LLM推論中不同形狀的GEMM產生50.25%的性能損失。 我們提出了FlashDecoding++,一個快速的LLM推論引擎,支持主流的LLM和硬件後端。為應對上述挑戰,FlashDecoding++創新地提出了:(1)具有統一最大值的非同步softmax。FlashDecoding++引入了一種統一的最大值技術,用於不同部分softmax計算,以避免同步。 (2)具有雙緩衝的平坦GEMM優化。FlashDecoding++指出,具有不同形狀的平坦GEMM面臨不同的瓶頸。然後,引入了雙緩衝等技術。 (3)具有硬件資源適應的啟發式數據流。FlashDecoding++通過考慮輸入動態,啟發式地優化數據流,使用不同的硬件資源。由於FlashDecoding++中優化的多功能性,FlashDecoding++可以實現與Hugging Face實現相比,NVIDIA和AMD GPU的速度提升分別高達4.86倍和2.18倍。FlashDecoding++還實現了與主流LLM上最先進的LLM推論引擎相比的平均加速比為1.37倍。
我們提出了 RoboGen,一個能夠透過生成式模擬自動學習多樣化機器人技能的生成式機器人代理。RoboGen利用了基礎和生成模型的最新進展。我們主張使用生成方案,而非直接使用或適應這些模型來生成策略或低層級動作,透過這些模型自動生成多樣化任務、場景和訓練監督,從而在最小人類監督下擴展機器人技能學習。我們的方法為機器人代理配備了自導式提議-生成-學習循環:代理首先提出有趣的任務和技能來發展,然後通過以適當的空間配置填充相關對象和資產來生成相應的模擬環境。之後,代理將提出的高層任務分解為子任務,選擇最佳的學習方法(強化學習、運動規劃或軌跡優化),生成所需的訓練監督,然後學習策略以獲取提出的技能。我們的工作旨在提取大規模模型中嵌入的廣泛多樣化知識,並將其轉移到機器人領域。我們的完全生成式流程可以被重複查詢,生成與多樣化任務和環境相關的技能演示的無盡流。
我們提出了一種基於訓練神經網絡成為幂等的生成建模新方法。幂等運算子是指可以按順序應用而不會改變結果超出初始應用的運算子,即 f(f(z))=f(z)。所提出的模型 f 被訓練來將來源分佈(例如,高斯噪聲)映射到目標分佈(例如,逼真圖像),使用以下目標:(1) 來自目標分佈的實例應該映射到自身,即 f(x)=x。我們將目標流形定義為所有 f 映射到自身的實例集合。(2) 來自來源分佈的實例應該映射到所定義的目標流形上。這是通過優化幂等性項目 f(f(z))=f(z) 實現的,這鼓勵 f(z) 的範圍在目標流形上。在理想假設下,這樣的過程可以證明收斂到目標分佈。這種策略導致一個能夠在一步中生成輸出的模型,保持一致的潛在空間,同時還允許進行逐步應用以進行改進。此外,我們發現通過處理來自目標和來源分佈的輸入,該模型能夠熟練地將損壞或修改的數據投影回目標流形。這項工作是邁向“全局投影器”的第一步,該投影器能夠將任何輸入投影到目標數據分佈中。
我們提出了基於擴散的端對端簡易文本轉語音(Easy End-to-End Diffusion-based Text to Speech)模型,這是一種基於擴散的簡單高效的端對端文本轉語音模型。E3 TTS直接將純文本作為輸入,通過迭代細化過程生成音頻波形。與許多先前的工作不同,E3 TTS不依賴於任何中間表示,如頻譜特徵或對齊信息。相反,E3 TTS通過擴散過程對波形的時間結構進行建模。在不依賴額外條件信息的情況下,E3 TTS可以支持給定音頻中的靈活潛在結構。這使得E3 TTS可以輕鬆適應零樣本任務,如編輯,而無需進行額外的訓練。實驗表明,E3 TTS能夠生成高保真音頻,接近最先進的神經TTS系統的性能。音頻樣本可在https://e3tts.github.io上找到。
在部署機器學習模型時,分布轉移是一個核心挑戰,因為這些模型可能無法應對真實世界的數據。這在文本轉語音生成中尤為明顯,其中編碼表示很容易被未見過的提示所削弱,進而導致生成的音頻質量下降 -- 有限的文本-音頻配對集對於野外條件下的條件音頻生成仍然不足,因為用戶提示過於不明確。特別是,我們觀察到生成的音頻樣本在用戶提示下的音質持續下降,與訓練集提示相比。為此,我們提出了一個基於檢索的上下文提示編輯框架,利用訓練字幕作為示範樣本來重新審視用戶提示。我們展示了該框架提高了整個收集的用戶提示集的音質,這些提示是根據訓練字幕作為示範樣本進行編輯的。
我們提出了一種可擴展、自底向上且內在多樣的數據收集方案,可用於具有長中程視野的高層推理,其吞吐量比傳統狹窄自上而下逐步收集高出2.2倍。我們通過在三座辦公大樓的整個範圍內執行任何用戶請求並使用多個機器人和人類實體來收集現實數據。通過這些數據,我們展示出在所有實體上訓練的模型表現優於僅在機器人數據上訓練的模型,即使僅在機器人情節上進行評估也是如此。我們發現,在固定的收集預算下,利用更便宜的人類收集與機器人收集是有益的。我們釋出了一個名為RoboVQA的大型且高度多樣(29,520個獨特指令)數據集,其中包含829,502個(視頻、文本)對,用於針對機器人的視覺問答。我們還展示了如何通過介入機制評估真實機器人實驗,實現任務完成,即使不完美也可在人類監督下部署,同時提供單一性能指標。我們展示了一個名為RoboVQA-VideoCoCa的單一視頻條件模型,該模型在我們的數據集上訓練,能夠在廣泛現實環境中執行各種基於地面的高層推理任務,其認知介入率比零樣本最先進的視覺語言模型(VLM)基線低46%,並能夠引導真實機器人完成長期任務。與零樣本最先進模型的性能差距表明,仍需收集大量基於地面的數據以進行現實世界部署,強調了可擴展數據收集方法的關鍵需求。最後,我們展示了視頻VLM在所有VQA任務中平均錯誤率降低19%,明顯優於單張圖像VLM。數據和視頻可在https://robovqa.github.io獲得。