ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

1

Mini-Omni:语言模型可以在流式处理中听、说话并思考
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Aug 29
ByZhifei Xie, Changqiao Wu
52
6

最近语言模型的进展取得了显著进步。作为一个新的里程碑,GPT-4o实现了与人类的实时对话,展示出接近人类自然流畅度的表现。这种人机交互需要具备直接进行推理并能够实时生成输出的模型,尤其是在音频模态下。然而,目前的学术模型尚无法做到这一点,因为它们通常依赖额外的TTS系统进行语音合成,导致不可取的延迟。本文介绍了Mini-Omni,一种基于音频的端到端会话模型,能够实现实时语音交互。为了实现这一能力,我们提出了一种文本指导的语音生成方法,并在推理过程中采用批处理并行策略以进一步提升性能。我们的方法还有助于保留原始模型的语言能力,降低最小化退化,使其他工作能够建立实时交互能力。我们将这种训练方法称为“任何模型都会说话”。我们还介绍了VoiceAssistant-400K数据集,用于微调针对语音输出进行优化的模型。据我们所知,Mini-Omni是第一个完全端到端的开源实时语音交互模型,为未来研究提供了宝贵的潜力。

2

VisionTS:视觉遮罩自编码器是免费午餐零样本时间序列预测器
VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

Aug 30
ByMouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
39
2

基础模型已成为时间序列预测(TSF)中一种有前途的方法。现有方法要么微调大型语言模型(LLMs),要么构建大规模时间序列数据集来开发TSF基础模型。然而,这些方法面临挑战,因为存在严重的跨领域差距或领域内异质性。在本文中,我们探索了一条新的道路,从丰富且高质量的自然图像构建TSF基础模型,基于图像与时间序列之间的内在相似性。为了弥合两个领域之间的差距,我们将TSF任务重新表述为图像重建任务,进一步由在ImageNet数据集上进行自监督预训练的视觉遮罩自编码器(MAE)进行处理。令人惊讶的是,在不需要在时间序列领域进行进一步适应的情况下,所提出的VisionTS在零-shot预测性能方面比现有的TSF基础模型表现更优异。通过最小的微调,VisionTS可以进一步改进预测并在大多数情况下实现最先进的性能。这些发现表明,视觉模型可能是时间序列预测的一种免费午餐,并突显了计算机视觉和TSF之间未来跨领域研究的潜力。我们的代码可在https://github.com/Keytoyze/VisionTS 上公开获取。

9月2日
9月3日
9月4日