每日精选AI研究论文及翻译
最近语言模型的进展取得了显著进步。作为一个新的里程碑,GPT-4o实现了与人类的实时对话,展示出接近人类自然流畅度的表现。这种人机交互需要具备直接进行推理并能够实时生成输出的模型,尤其是在音频模态下。然而,目前的学术模型尚无法做到这一点,因为它们通常依赖额外的TTS系统进行语音合成,导致不可取的延迟。本文介绍了Mini-Omni,一种基于音频的端到端会话模型,能够实现实时语音交互。为了实现这一能力,我们提出了一种文本指导的语音生成方法,并在推理过程中采用批处理并行策略以进一步提升性能。我们的方法还有助于保留原始模型的语言能力,降低最小化退化,使其他工作能够建立实时交互能力。我们将这种训练方法称为“任何模型都会说话”。我们还介绍了VoiceAssistant-400K数据集,用于微调针对语音输出进行优化的模型。据我们所知,Mini-Omni是第一个完全端到端的开源实时语音交互模型,为未来研究提供了宝贵的潜力。
基础模型已成为时间序列预测(TSF)中一种有前途的方法。现有方法要么微调大型语言模型(LLMs),要么构建大规模时间序列数据集来开发TSF基础模型。然而,这些方法面临挑战,因为存在严重的跨领域差距或领域内异质性。在本文中,我们探索了一条新的道路,从丰富且高质量的自然图像构建TSF基础模型,基于图像与时间序列之间的内在相似性。为了弥合两个领域之间的差距,我们将TSF任务重新表述为图像重建任务,进一步由在ImageNet数据集上进行自监督预训练的视觉遮罩自编码器(MAE)进行处理。令人惊讶的是,在不需要在时间序列领域进行进一步适应的情况下,所提出的VisionTS在零-shot预测性能方面比现有的TSF基础模型表现更优异。通过最小的微调,VisionTS可以进一步改进预测并在大多数情况下实现最先进的性能。这些发现表明,视觉模型可能是时间序列预测的一种免费午餐,并突显了计算机视觉和TSF之间未来跨领域研究的潜力。我们的代码可在https://github.com/Keytoyze/VisionTS 上公开获取。