AI研究論文每日精選

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Aug 29

ByZhifei Xie, Changqiao Wu

語言模型的最新進展取得了顯著的進步。作為一個新的里程碑，GPT-4o實現了與人類的實時對話，展現了接近人類自然流暢的能力。這種人機互動需要具備直接進行推理並以串流形式生成輸出的模型。然而，目前的學術模型仍難以做到這一點，因為它們通常依賴額外的TTS系統進行語音合成，導致不必要的延遲。本文介紹了Mini-Omni，一種基於音頻的端到端對話模型，能夠實現實時語音互動。為了實現這一能力，我們提出了一種文本指導的語音生成方法，並在推理過程中採用批量並行策略以進一步提高性能。我們的方法還有助於保留原始模型的語言能力，並最小程度地降低其品質，從而使其他工作能夠建立實時互動的能力。我們將這種訓練方法稱為“任何模型都能說話”。我們還介紹了VoiceAssistant-400K數據集，用於微調針對語音輸出進行優化的模型。據我們所知，Mini-Omni是第一個完全端到端、開源的實時語音互動模型，為未來研究提供了有價值的潛力。

VisionTS：視覺遮罩自編碼器是零樣本時間序列預測器

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

Aug 30

ByMouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu

基礎模型已成為時間序列預測（TSF）中一種具有前景的方法。現有方法要麼對大型語言模型（LLMs）進行微調，要麼構建大規模時間序列數據集以開發TSF基礎模型。然而，這些方法面臨嚴重的跨領域差距或領域內異質性挑戰。本文探索了一條新路徑，從豐富且高質量的自然圖像中構建TSF基礎模型，基於圖像與時間序列之間的內在相似性。為了彌合兩個領域之間的差距，我們將TSF任務重新定義為一個圖像重建任務，進一步通過在ImageNet數據集上進行自監督預訓練的視覺遮罩自編碼器（MAE）進行處理。令人驚訝的是，在沒有進一步在時間序列領域進行適應的情況下，所提出的VisionTS能夠實現優越的零-shot預測性能，相較於現有的TSF基礎模型。通過最小程度的微調，VisionTS可以進一步改善預測並在大多數情況下實現最先進的性能。這些發現表明，視覺模型可能是TSF的一種免費午餐，並突出了未來計算機視覺和TSF之間跨領域研究的潛力。我們的代碼公開可在https://github.com/Keytoyze/VisionTS找到。

•

小全聽：語言模型可以在串流中聽、說話並思考