每日精選AI研究論文及翻譯
語言模型的最新進展取得了顯著的進步。作為一個新的里程碑,GPT-4o實現了與人類的實時對話,展現了接近人類自然流暢的能力。這種人機互動需要具備直接進行推理並以串流形式生成輸出的模型。然而,目前的學術模型仍難以做到這一點,因為它們通常依賴額外的TTS系統進行語音合成,導致不必要的延遲。本文介紹了Mini-Omni,一種基於音頻的端到端對話模型,能夠實現實時語音互動。為了實現這一能力,我們提出了一種文本指導的語音生成方法,並在推理過程中採用批量並行策略以進一步提高性能。我們的方法還有助於保留原始模型的語言能力,並最小程度地降低其品質,從而使其他工作能夠建立實時互動的能力。我們將這種訓練方法稱為“任何模型都能說話”。我們還介紹了VoiceAssistant-400K數據集,用於微調針對語音輸出進行優化的模型。據我們所知,Mini-Omni是第一個完全端到端、開源的實時語音互動模型,為未來研究提供了有價值的潛力。
基礎模型已成為時間序列預測(TSF)中一種具有前景的方法。現有方法要麼對大型語言模型(LLMs)進行微調,要麼構建大規模時間序列數據集以開發TSF基礎模型。然而,這些方法面臨嚴重的跨領域差距或領域內異質性挑戰。本文探索了一條新路徑,從豐富且高質量的自然圖像中構建TSF基礎模型,基於圖像與時間序列之間的內在相似性。為了彌合兩個領域之間的差距,我們將TSF任務重新定義為一個圖像重建任務,進一步通過在ImageNet數據集上進行自監督預訓練的視覺遮罩自編碼器(MAE)進行處理。令人驚訝的是,在沒有進一步在時間序列領域進行適應的情況下,所提出的VisionTS能夠實現優越的零-shot預測性能,相較於現有的TSF基礎模型。通過最小程度的微調,VisionTS可以進一步改善預測並在大多數情況下實現最先進的性能。這些發現表明,視覺模型可能是TSF的一種免費午餐,並突出了未來計算機視覺和TSF之間跨領域研究的潛力。我們的代碼公開可在https://github.com/Keytoyze/VisionTS找到。