ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

小全聽:語言模型可以在串流中聽、說話並思考
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Aug 29
ByZhifei Xie, Changqiao Wu
52
6

語言模型的最新進展取得了顯著的進步。作為一個新的里程碑,GPT-4o實現了與人類的實時對話,展現了接近人類自然流暢的能力。這種人機互動需要具備直接進行推理並以串流形式生成輸出的模型。然而,目前的學術模型仍難以做到這一點,因為它們通常依賴額外的TTS系統進行語音合成,導致不必要的延遲。本文介紹了Mini-Omni,一種基於音頻的端到端對話模型,能夠實現實時語音互動。為了實現這一能力,我們提出了一種文本指導的語音生成方法,並在推理過程中採用批量並行策略以進一步提高性能。我們的方法還有助於保留原始模型的語言能力,並最小程度地降低其品質,從而使其他工作能夠建立實時互動的能力。我們將這種訓練方法稱為“任何模型都能說話”。我們還介紹了VoiceAssistant-400K數據集,用於微調針對語音輸出進行優化的模型。據我們所知,Mini-Omni是第一個完全端到端、開源的實時語音互動模型,為未來研究提供了有價值的潛力。

2

VisionTS:視覺遮罩自編碼器是零樣本時間序列預測器
VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

Aug 30
ByMouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
39
2

基礎模型已成為時間序列預測(TSF)中一種具有前景的方法。現有方法要麼對大型語言模型(LLMs)進行微調,要麼構建大規模時間序列數據集以開發TSF基礎模型。然而,這些方法面臨嚴重的跨領域差距或領域內異質性挑戰。本文探索了一條新路徑,從豐富且高質量的自然圖像中構建TSF基礎模型,基於圖像與時間序列之間的內在相似性。為了彌合兩個領域之間的差距,我們將TSF任務重新定義為一個圖像重建任務,進一步通過在ImageNet數據集上進行自監督預訓練的視覺遮罩自編碼器(MAE)進行處理。令人驚訝的是,在沒有進一步在時間序列領域進行適應的情況下,所提出的VisionTS能夠實現優越的零-shot預測性能,相較於現有的TSF基礎模型。通過最小程度的微調,VisionTS可以進一步改善預測並在大多數情況下實現最先進的性能。這些發現表明,視覺模型可能是TSF的一種免費午餐,並突出了未來計算機視覺和TSF之間跨領域研究的潛力。我們的代碼公開可在https://github.com/Keytoyze/VisionTS找到。

Sep 2
Sep 3
Sep 4