每日精选AI研究论文及翻译
我们提出了一种对场景动态建模图像空间先验的方法。 我们的先验是从包含自然振荡运动的真实视频序列中提取的运动轨迹集合中学习的,这些运动包括树木、花朵、蜡烛和风中飘动的衣物。给定一幅单独的图像,我们训练的模型使用频率协调扩散采样过程来预测傅立叶域中每个像素的长期运动表示,我们称之为神经随机运动纹理。这种表示可以转换为跨越整个视频的密集运动轨迹。结合基于图像的渲染模块,这些轨迹可用于许多下游应用,例如将静止图像转换为无缝循环的动态视频,或允许用户在真实图片中与对象进行逼真互动。
最近对大型语言模型(LLMs)的进展使研究人员和开发者能够构建自主语言代理,这些代理可以利用自然语言界面自动解决各种任务,并与环境、人类和其他代理进行交互。我们认为语言代理是通往人工通用智能的一个有前途的方向,并发布了Agents,这是一个开源库,旨在将这些进展开放给更广泛的非专业人士。Agents经过精心设计,支持重要功能,包括规划、记忆、工具使用、多代理通信和细粒度符号控制。Agents用户友好,使非专业人士能够构建、定制、测试、调整和部署最先进的自主语言代理而无需太多编码。该库也对研究人员友好,其模块化设计使其易于扩展。Agents可在https://github.com/aiwaves-cn/agents 上获得。
音频超分辨率是一项基础任务,用于为低分辨率音频预测高频成分,从而增强数字应用中的音频质量。先前的方法存在一些局限,比如音频类型的范围有限(如音乐、语音),以及能处理的特定带宽设置有限(如4kHz至8kHz)。本文介绍了一种基于扩散的生成模型,名为AudioSR,能够对包括音效、音乐和语音在内的多种音频类型执行稳健的音频超分辨率。具体而言,AudioSR能够将带宽范围在2kHz至16kHz之间的任何输入音频信号上采样到带宽为24kHz、采样率为48kHz的高分辨率音频信号。在各种音频超分辨率基准测试上进行了广泛客观评估,展示了所提出模型取得的强大结果。此外,我们的主观评估显示,AudioSR可作为即插即用模块,提升各种音频生成模型(包括AudioLDM、Fastspeech2和MusicGen)的生成质量。我们的代码和演示可在https://audioldm.github.io/audiosr获取。
在海量文本数据中筛选并总结关键信息给临床医生分配时间带来了巨大负担。尽管大型语言模型(LLMs)在自然语言处理(NLP)任务中表现出巨大潜力,但它们在各种临床摘要任务中的有效性尚未得到严格检验。在这项工作中,我们对八个LLMs应用领域自适应方法,涵盖六个数据集和四个不同的摘要任务:放射学报告、患者问题、病历记录和医患对话。我们进行了彻底的定量评估,揭示了模型和自适应方法之间的权衡,以及LLMs最近的进展可能不会带来改进结果的情况。此外,在与六名医生进行的临床阅读者研究中,我们表明最佳适应的LLM的摘要在完整性和正确性方面优于人类摘要。我们随后的定性分析描述了LLMs和人类专家面临的共同挑战。最后,我们将传统的定量NLP指标与阅读者研究评分相关联,以增进我们对这些指标如何与医生偏好一致的理解。我们的研究标志着LLMs在多个任务中胜过人类专家在临床文本摘要中的首次证据。这意味着将LLMs整合到临床工作流程中可以减轻文档负担,使临床医生能够更多地专注于个性化患者护理和医学中其他不可替代的人类方面。
视频抠像具有广泛的应用,从为随意拍摄的电影添加有趣的效果到辅助视频制作专业人员。带有阴影和反射等相关效果的抠像也吸引了越来越多的研究活动,像Omnimatte这样的方法已被提出,将动态前景对象分离成它们自己的层。然而,先前的作品将视频背景表示为2D图像层,限制了它们表达更复杂场景的能力,从而阻碍了对真实世界视频的应用。在本文中,我们提出了一种新颖的视频抠像方法,OmnimatteRF,它结合了动态的2D前景层和一个3D背景模型。2D层保留了主体的细节,而3D背景则稳健地重建了真实世界视频中的场景。大量实验证明,我们的方法在各种视频上重建场景的质量更好。
在上下文学习(ICL)中,即仅向LLM展示少量特定任务的演示,已经导致下游收益,而无需进行特定任务的微调。然而,LLM对提示的选择很敏感,因此一个关键的研究问题是如何为ICL选择好的演示。一种有效的策略是利用ICL演示和测试输入之间的语义相似性,通过使用文本检索器,然而这种方法并不理想,因为它并未考虑LLM对该任务的现有知识。根据之前的研究(Min等,2022),我们已经知道与演示配对的标签会影响模型的预测。这引出了我们的假设,即考虑LLM对任务的现有知识,特别是关于输出标签空间,是否可以帮助改进演示选择策略。通过对三个文本分类任务进行广泛实验,我们发现,不仅选择语义相似的ICL演示有益,还选择那些有助于解决围绕测试示例存在的内在标签模糊性的演示也是有益的。有趣的是,我们发现包括LLM先前误分类的演示,并且也落在测试示例的决策边界上,带来了最大的性能提升。
大型语言模型(LLMs)在自然语言处理(NLP)任务中展现出令人印象深刻的性能,如问答、摘要和分类。LLMs作为评估器的使用日益流行,可以对其他模型(通常是LLMs)的输出进行排名或评分,这是因为当前评估技术存在诸多限制,包括缺乏适当的基准、度量标准、成本和人工标注者的获取。虽然LLMs能够处理大约100种语言,但大多数排名在前20位之外的语言在各种任务、度量标准和基准上缺乏系统性评估。这导致迫切需要扩大多语言评估的规模,以确保对LLMs在不同语言上的性能有准确的理解。基于LLMs的评估器似乎是解决这一问题的完美方案,因为它们不需要人工标注者、人工创建的参考文献或基准,并且理论上可以用于评估LLMs覆盖的任何语言。在本文中,我们调查了基于LLMs的评估器是否可以帮助扩大多语言评估。具体而言,我们校准了基于LLMs的评估与20k个人类判断的五个度量标准在八种语言中三个文本生成任务上的表现。我们的研究结果表明,基于LLMs的评估器可能存在对更高分数的偏见,应谨慎使用,并且应始终与一组母语者判断的数据集进行校准,特别是在资源匮乏和非拉丁文字语言中。