每日精选AI研究论文及翻译
扩散模型在各种图像对图像任务中展示了显著的效果。在这项研究中,我们介绍了Imagine yourself,这是一种专为个性化图像生成设计的最先进模型。与传统的基于调整的个性化技术不同,Imagine yourself作为一种无需调整的模型运行,使所有用户能够利用共享框架而无需个性化调整。此外,先前的工作在平衡身份保留、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型具有强烈的参照图像复制粘贴效应。因此,它们几乎无法生成遵循需要对参考图像进行重大更改的提示的图像,例如更改面部表情、头部和身体姿势,生成图像的多样性较低。为了解决这些限制,我们提出的方法引入了1)一种新的合成配对数据生成机制以鼓励图像多样性,2)一个具有三个文本编码器和一个完全可训练的视觉编码器的全并行注意力架构以提高文本忠实度,以及3)一种新颖的由粗到细的多阶段微调方法,逐渐推动视觉质量的边界。我们的研究表明,Imagine yourself超越了最先进的个性化模型,在身份保留、视觉质量和文本对齐方面展现出卓越能力。该模型为各种个性化应用奠定了坚实基础。人类评估结果验证了该模型在所有方面(身份保留、文本忠实度和视觉吸引力)上相对于先前的个性化模型具有最先进的优势。
即使对于当前的视觉-语言模型来说,理解讽刺和幽默也是一项具有挑战性的任务。在本文中,我们提出了具有挑战性的任务,包括讽刺图像检测(检测图像是否具有讽刺性)、理解(生成图像具有讽刺性的原因)和完成(在给定图像的一半的情况下,从两个给定选项中选择另一半,使得完整图像具有讽刺性),并发布了一个高质量的数据集YesBut,包含2547张图像,其中1084张具有讽刺性,1463张非讽刺性,涵盖不同的艺术风格,以评估这些任务。数据集中的每个讽刺图像描绘了一个正常情景,以及一个有趣或讽刺的冲突情景。尽管当前的视觉-语言模型在多模态任务(如视觉问答和图像字幕生成)上取得了成功,但我们的基准实验表明,这些模型在Zero-Shot设置下对YesBut数据集上提出的任务表现不佳,无论是在自动化评估还是人工评估方面。此外,我们还发布了一个包含119张真实讽刺照片的数据集,供进一步研究使用。数据集和代码可在https://github.com/abhi1nandy2/yesbut_dataset 上获取。
由于意识到人工智能仿真器可以与运行在高性能计算系统上的传统数值天气预报模型的性能相媲美,现在有越来越多的大型人工智能模型用于解决诸如预测、降尺度或现在预报等用例。虽然人工智能文献中的并行发展侧重于基础模型——可以有效调整以解决多个不同用例的模型——但天气和气候领域的发展主要集中在特定中程预测为重点的单一用例。我们通过引入Prithvi WxC 来弥补这一差距,这是一个使用来自现代-时代回顾分析研究和应用第2版(MERRA-2)的160个变量开发的23亿参数基础模型。Prithvi WxC采用基于编码器-解码器的架构,结合了各种最近的Transformer模型的概念,以有效捕捉输入数据中的区域和全球依赖关系。该模型经过设计,以适应大量令牌计数,以在精细分辨率下对不同拓扑中的天气现象进行建模。此外,它采用了结合了掩码重建和预测范式的混合目标进行训练。我们在一组具有挑战性的下游任务上对该模型进行了测试,包括:自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。具有23亿参数的预训练模型,以及相关的微调工作流程,已通过Hugging Face作为开源贡献公开发布。
大型语言模型(LLMs)已经在各种认知任务中展示出显著的性能提升。一个新兴的应用是利用LLMs增强检索增强生成(RAG)能力。这些系统要求LLMs理解用户查询,检索相关信息,并合成连贯准确的回应。鉴于这类系统在现实世界中的部署日益增多,全面的评估变得至关重要。为此,我们提出了FRAMES(Factuality, Retrieval, And reasoning MEasurement Set),这是一个高质量的评估数据集,旨在测试LLMs提供事实性回应的能力,评估检索能力,并评估生成最终答案所需的推理能力。虽然先前的工作提供了用于分别评估这些能力的数据集和基准,但FRAMES提供了一个统一框架,更清晰地展示了LLMs在端到端RAG场景中的性能。我们的数据集包含具有挑战性的多跳问题,需要整合来自多个来源的信息。我们提供了基准结果,表明即使是最先进的LLMs在这项任务中也存在困难,没有检索时的准确率为0.40。我们提出的多步检索流程显著提高了准确率,达到了0.66(提高了50%以上)。我们希望我们的工作将有助于弥合评估差距,并帮助开发更加健壮和有能力的RAG系统。
音乐编解码器是音频编解码研究的重要方面,超低比特率压缩对音乐传输和生成具有重要意义。由于音乐背景的复杂性和人声的丰富性,仅依靠建模语义或声学信息无法有效重构同时包含人声和背景的音乐。为解决这一问题,我们提出了MuCodec,专门针对超低比特率下的音乐压缩和重构任务。MuCodec利用MuEncoder提取声学和语义特征,通过RVQ对其进行离散化,并通过流匹配获得Mel-VAE特征。然后使用预训练的MEL-VAE解码器和HiFi-GAN重构音乐。MuCodec可以在超低(0.35kbps)或高比特率(1.35kbps)下重构高保真音乐,在主观和客观指标上取得迄今最佳结果。代码和演示:https://xuyaoxun.github.io/MuCodec_demo/。
我们介绍了PortraitGen,这是一种强大的肖像视频编辑方法,通过多模态提示实现了一致且富有表现力的风格化。传统的肖像视频编辑方法通常难以实现3D和时间一致性,通常在渲染质量和效率上也存在不足。为了解决这些问题,我们将肖像视频帧提升到统一的动态3D高斯场,确保帧间的结构和时间上的一致性。此外,我们设计了一种新颖的神经高斯纹理机制,不仅实现了复杂的风格编辑,还实现了超过100FPS的渲染速度。我们的方法通过从大规模2D生成模型中蒸馏的知识,融合了多模态输入。我们的系统还融合了表情相似性指导和面部感知的肖像编辑模块,有效地缓解了与迭代数据集更新相关的退化问题。大量实验证明了我们方法的时间一致性、编辑效率和优越的渲染质量。所提出方法的广泛适用性通过各种应用得到展示,包括文本驱动编辑、图像驱动编辑和重光,突显了其推动视频编辑领域发展的巨大潜力。我们的项目页面提供了演示视频和发布的代码:https://ustc3dv.github.io/PortraitGen/
内在图像分解旨在在给定单张照片的情况下分离表面反射和光照效果。由于问题的复杂性,大多数先前的研究假设单色光照和朗伯世界,这限制了它们在光照感知图像编辑应用中的使用。在这项工作中,我们将输入图像分解为漫反射反照率、多彩漫反射阴影和镜面残差组件。我们通过逐步消除首先是单色光照,然后是朗伯世界的假设来得出我们的结果。我们表明,通过将问题分解为更容易的子问题,尽管受限于有限的真实数据集,可以实现野外多彩漫反射阴影估计。我们扩展的内在模型实现了对照片的光照感知分析,并可用于图像编辑应用,如去除镜面反射和逐像素白平衡。
体验高保真体积视频与2D视频一样流畅一直是一个梦想。然而,当前的动态3DGS方法,尽管具有高渲染质量,但由于计算和带宽限制,在移动设备上面临流媒体挑战。在本文中,我们介绍了V3(查看体积视频),这是一种通过动态高斯流媒体实现高质量移动渲染的新方法。我们的关键创新是将动态3DGS视为2D视频,从而便于使用硬件视频编解码器。此外,我们提出了一个两阶段训练策略,通过快速训练速度减少存储需求。第一阶段采用哈希编码和浅层MLP来学习运动,然后通过修剪减少高斯数量以满足流媒体要求,而第二阶段则利用残差熵损失和时间损失微调其他高斯属性以改善时间连续性。这种策略,将运动和外观分离,保持了高渲染质量并具有紧凑的存储需求。同时,我们设计了一个多平台播放器来解码和渲染2D高斯视频。大量实验证明了V3的有效性,通过在普通设备上实现高质量渲染和流媒体,胜过其他方法,这是前所未有的。作为首个在移动设备上流式传输动态高斯的项目,我们的伴侣播放器为用户提供了前所未有的体积视频体验,包括流畅滚动和即时共享。我们的项目页面和源代码可在https://authoritywang.github.io/v3/上找到。
LLM在不同领域展现出了令人称赞的性能。然而,为协助它们工作而制定高质量提示对非人工智能专家来说是一项挑战。现有的提示工程研究表明,存在着一些分散的优化原则和依赖经验的提示优化器设计。不幸的是,这些努力缺乏结构设计,导致学习成本高,不利于提示的迭代更新,尤其是对非人工智能专家而言。受结构化可重用编程语言的启发,我们提出了LangGPT,一个结构化提示设计框架。此外,我们引入了Minstrel,一个具有反思能力的多生成代理系统,用于自动化生成结构化提示。实验证明,Minstrel生成的结构化提示或手动编写的提示显著提升了LLM的性能。此外,我们通过在线社区的用户调查分析了结构化提示的易用性。
我们介绍了V-AURA,这是第一个能够在视频到音频生成中实现高时序对齐和相关性的自回归模型。V-AURA使用高帧率的视觉特征提取器和跨模态音频-视觉特征融合策略,捕获细粒度的视觉运动事件,并确保精确的时序对齐。此外,我们提出了VisualSound,一个具有高音频-视觉相关性的基准数据集。VisualSound基于VGGSound,这是一个包含来自YouTube的野外样本的视频数据集。在策划过程中,我们删除了音频事件与视觉事件不对齐的样本。V-AURA在时序对齐和语义相关性方面优于当前的最先进模型,同时保持可比较的音频质量。代码、样本、VisualSound和模型可在https://v-aura.notion.site找到。
大型语言模型(LLMs)展现出在各个领域的显著潜力,包括网络安全。使用商业云端的LLMs可能存在隐私问题、成本和网络连接限制,这是不理想的。本文介绍了Hackphyr,这是一个在网络安全环境中作为红队代理使用的本地微调LLM。我们微调的70亿参数模型可以在单个GPU卡上运行,并且达到了与更大更强大的商业模型(如GPT-4)相媲美的性能。Hackphyr明显优于其他模型,包括GPT-3.5-turbo和基线模型,如Q学习代理在复杂、以前未见的场景中。为了实现这一性能,我们生成了一个新的任务特定的网络安全数据集,以增强基础模型的能力。最后,我们对代理的行为进行了全面分析,从而深入了解这些代理的规划能力和潜在缺陷,有助于更广泛地理解基于LLM的代理在网络安全环境中的应用。
基于LLM的代理程序中工具的集成克服了独立LLM和传统代理程序功能有限的困难。然而,这些技术的结合以及在几项最新工作中提出的增强方案遵循了非统一的软件架构,导致缺乏模块化。事实上,它们主要关注功能,而忽视了代理程序内部组件边界的定义。这导致研究人员之间术语和架构上的不确定性,我们通过提出一个统一框架来解决这些问题。该框架从功能和软件架构的角度为基于LLM的代理程序的开发建立了清晰的基础。 我们的框架,LLM-Agent-UMF(基于LLM的代理程序统一建模框架),明确区分了代理程序的不同组件,将LLM和工具与新引入的核心代理元素区分开来,核心代理扮演着代理程序的中央协调员的角色,包括五个模块:规划、记忆、配置文件、动作和安全性,后者在先前的工作中经常被忽视。核心代理的内部结构差异导致我们将其分类为被动和主动类型。基于此,我们提出了不同的多核代理架构,结合了各种个体代理的独特特征。 为了评估目的,我们将该框架应用于一些最新代理程序,从而展示其与它们的功能的一致性,并澄清被忽视的架构方面。此外,我们通过将不同代理整合到混合主动/被动核心代理系统中,对我们提出的四种架构进行了彻底评估。这种分析为潜在改进提供了明确见解,并突出了结合特定代理程序所涉及的挑战。