AI研究论文每日精选

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Aug 29

ByZhifei Xie, Changqiao Wu

最近语言模型的进展取得了显著进步。作为一个新的里程碑，GPT-4o实现了与人类的实时对话，展示出接近人类自然流畅度的表现。这种人机交互需要具备直接进行推理并能够实时生成输出的模型，尤其是在音频模态下。然而，目前的学术模型尚无法做到这一点，因为它们通常依赖额外的TTS系统进行语音合成，导致不可取的延迟。本文介绍了Mini-Omni，一种基于音频的端到端会话模型，能够实现实时语音交互。为了实现这一能力，我们提出了一种文本指导的语音生成方法，并在推理过程中采用批处理并行策略以进一步提升性能。我们的方法还有助于保留原始模型的语言能力，降低最小化退化，使其他工作能够建立实时交互能力。我们将这种训练方法称为“任何模型都会说话”。我们还介绍了VoiceAssistant-400K数据集，用于微调针对语音输出进行优化的模型。据我们所知，Mini-Omni是第一个完全端到端的开源实时语音交互模型，为未来研究提供了宝贵的潜力。

VisionTS：视觉遮罩自编码器是免费午餐零样本时间序列预测器

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

Aug 30

ByMouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu

基础模型已成为时间序列预测（TSF）中一种有前途的方法。现有方法要么微调大型语言模型（LLMs），要么构建大规模时间序列数据集来开发TSF基础模型。然而，这些方法面临挑战，因为存在严重的跨领域差距或领域内异质性。在本文中，我们探索了一条新的道路，从丰富且高质量的自然图像构建TSF基础模型，基于图像与时间序列之间的内在相似性。为了弥合两个领域之间的差距，我们将TSF任务重新表述为图像重建任务，进一步由在ImageNet数据集上进行自监督预训练的视觉遮罩自编码器（MAE）进行处理。令人惊讶的是，在不需要在时间序列领域进行进一步适应的情况下，所提出的VisionTS在零-shot预测性能方面比现有的TSF基础模型表现更优异。通过最小的微调，VisionTS可以进一步改进预测并在大多数情况下实现最先进的性能。这些发现表明，视觉模型可能是时间序列预测的一种免费午餐，并突显了计算机视觉和TSF之间未来跨领域研究的潜力。我们的代码可在https://github.com/Keytoyze/VisionTS 上公开获取。

•

Mini-Omni：语言模型可以在流式处理中听、说话并思考