每日精選AI研究論文及翻譯
隨著深度生成模型的進步,音樂生成引起了越來越多的興趣。然而,在文字描述條件下生成音樂,即所謂的文本到音樂,由於音樂結構的複雜性和高採樣率要求,仍然具有挑戰性。儘管這項任務的重要性,但目前的生成模型在音樂質量、計算效率和泛化能力方面存在限制。本文介紹了JEN-1,一個用於文本到音樂生成的通用高保真模型。JEN-1是一個融合自回歸和非自回歸訓練的擴散模型。通過上下文學習,JEN-1執行各種生成任務,包括文本引導的音樂生成、音樂修補和延續。評估表明,JEN-1在文本音樂對齊和音樂質量方面表現優越,同時保持計算效率。我們的演示可在http://futureverse.com/research/jen/demos/jen1找到。
隨著大型語言模型的不斷改進,人們對利用這些模型的能力來完善其輸出的技術越來越感興趣。在這項工作中,我們介紹了Shepherd,這是一個專門調校以批評回應並提出改進建議的語言模型,擴展了未調校模型的能力,能夠識別各種錯誤並提供改正建議。我們方法的核心是一個高質量的反饋數據集,我們從社區反饋和人類標註中精心策劃。儘管Shepherd規模較小(7B參數),其批評要麼與ChatGPT等已建立模型的批評相當,要麼更受歡迎。在使用GPT-4進行評估時,Shepherd在與競爭對手相比的平均勝率達到53-87%。在人類評估中,Shepherd嚴格優於其他模型,並且平均與ChatGPT持平。
最近大型語言模型(LLM)的進展展示了它們多樣的能力。我們提出了一種新穎的算法,名為階段性推測解碼,以加速在小批次、設備上進行的LLM推理。我們通過改進先前的推測解碼工作,來應對小批次推理的低算術強度。首先,我們將推測批次重組為樹狀結構,從而降低生成成本並增加預期的每批次標記數。其次,我們增加了第二階段的推測解碼。綜合起來,我們在762M參數的GPT-2-L模型上將單批次解碼延遲時間降低了3.16倍,同時完美地保留了輸出質量。
在自動駕駛中,3D物體檢測中的假陰性(FN),例如遺漏對行人、車輛或其他障礙物的預測,可能導致潛在危險情況。儘管具有致命性,但這個問題在許多當前的3D檢測方法中尚未受到充分研究。在本研究中,我們提出了Hard Instance Probing(HIP),這是一個通用流程,以多階段方式識別FN並引導模型專注於挖掘困難實例。對於3D物體檢測,我們將此方法具體化為FocalFormer3D,這是一個簡單而有效的檢測器,擅長挖掘困難對象並提高預測召回率。FocalFormer3D採用多階段查詢生成以發現困難對象,並採用框級Transformer解碼器以有效區分來自大量對象候選者的對象。在nuScenes和Waymo數據集上的實驗結果驗證了FocalFormer3D卓越的性能。這個優勢在檢測和跟踪以及LiDAR和多模態設置中都表現出色。值得注意的是,FocalFormer3D在nuScenes檢測基準上達到70.5 mAP和73.9 NDS,而nuScenes跟踪基準則顯示72.1 AMOTA,在nuScenes LiDAR排行榜上均排名第一。我們的代碼可在https://github.com/NVlabs/FocalFormer3D找到。